標(biāo)簽:問題
Mistral AI兩:7B數(shù)學(xué)推理專用、Mamba2架構(gòu)代碼大模型
機器之心報道 機器之心編輯部網(wǎng)友很好奇,Mathstral能不能搞定「9.11和9.9誰大」這一問題。昨天,AI圈竟然被「9.11和9.9誰大」這樣簡單的問題攻陷了,包括Ope...
13.11 和 13.8 哪個大,不只是人類,為什么連大模型也翻車了?
以下文章轉(zhuǎn)載自公眾號「量子位」,F(xiàn)ounder Park 略有增刪。7月12日晚,《歌手 2024》第十期競演排名公布,每位選手的名字后是得票率,有觀眾在社交媒體評論區(qū)...
大模型集體失智!9.11和9.9哪個大,幾乎全翻車了
夢晨 一水 發(fā)自 凹非寺量子位 | 公眾號 QbitAI沒眼看……“9.11和9.9哪個大”這樣簡單的問題,居然把主流大模型都難倒了?? 強如GPT-4o,都堅定地認為9.11更大。...
OpenAI華人女科學(xué)家萬字詳解大模型「外在幻覺」
夕小瑤科技說 分享來源 | 量子位 大模型幻覺還分內(nèi)在、外在了—— OpenAI華人科學(xué)家翁荔最新Blog,提出LLM外在幻覺(extrinsic hallucination)。 有別于代指模...
科普之旅 :大語言模型的思維鏈
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載數(shù)據(jù)派THU 作者:胡赟豪 ???在這個信息爆炸的時代,你是否曾幻想過與機器流暢交談,或是讓AI助你筆下生花,創(chuàng)作出驚艷的文章?這一切,都...
阿里媽媽給出了什么樣的賽題,被頂會NeurIPS 2024 pick了?
機器之心原創(chuàng) 作者:張倩會「出價」也是個很實用的技能。在眾多人工智能頂會中,NeurIPS 屬于什么段位?有人將其代入《甄嬛傳》宇宙做了張圖:大概配享「后位...
登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實編程問題
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)...
OpenAI Lilian Weng萬字長文解讀LLM幻覺:從理解到克服
機器之心報道 編輯:Panda WLilian Weng 出品,必是精品。人會有幻覺,大型語言模型也會有幻覺。近日,OpenAI 安全系統(tǒng)團隊負責(zé)人 Lilian Weng 更新了博客,...
OpenAI新模型「草莓」曝光:強推理/長任務(wù)規(guī)劃/超大規(guī)模訓(xùn)練!還給出AGI分級
明敏 克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI最新絕密項目曝光! 知情人士透露,OpenAI正在開發(fā)一個名為“草莓(Strawberry)”的新模型,它的前身是Q...
創(chuàng)業(yè)者復(fù)盤:如何判斷出海 AI 產(chǎn)品該不該立項?
近兩年最熱的賽道就是 AI 了,我們技術(shù)團隊早在去年上半年就開始布局相關(guān)的技術(shù)研究,但現(xiàn)在一年多時間過去了,產(chǎn)品上卻遲遲沒有做任何與 AI 相關(guān)的功能。 是...
有了ChatGPT,還需要人類程序猿編碼嗎?
6月,IEEE刊登了一篇對ChatGPT代碼生成任務(wù)進行系統(tǒng)評估的論文,數(shù)據(jù)集就是程序員們最愛的LeetCode題庫。研究揭示了LLM在代碼任務(wù)中出現(xiàn)的潛在問題和能力局限...
RAG 技術(shù)在金融支付類 ToC 應(yīng)用場景中的探索與實踐
嘉賓|王良平安壹錢包用戶研發(fā)部技術(shù)負責(zé)人 編輯|黃雯希 支付行業(yè)作為金融生態(tài)系統(tǒng)中的重要組成部分,其數(shù)字化轉(zhuǎn)型不僅關(guān)系到企業(yè)自身的競爭力,更直接影響...
語義熵識破LLM幻覺!牛津大學(xué)新研究登Nature
新智元報道編輯:alan 【新智元導(dǎo)讀】近日,來自牛津大學(xué)的研究人員推出了利用語義熵來檢測LLM幻覺的新方法。作為克服混淆的策略,語義熵建立在不確定性估計...
裁決中的P與NP以及復(fù)雜性的復(fù)雜度
作者:Benjamin Skuse 譯者:zzllrr小樂 如果我請你出庭作證,對一長串?dāng)?shù)字按照從低到高的順序進行排序,與解決一個巨大的數(shù)獨難題一樣復(fù)雜,你可能會認為我...
微軟中國CTO韋青:親身經(jīng)歷大模型落地的體會與思考
演講嘉賓 | 韋青 微軟(中國)公司 / 首席技術(shù)官 編輯 | 蔡芳芳 傅宇琪 在大模型、AIGC 的沖擊下,大多數(shù)人把目光聚焦在技術(shù)浪潮上,聚焦在那些“容易解決”的...
粵公網(wǎng)安備 44011502001135號