開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數(shù)學99.2分刷爆測試集
AIGC動態(tài)歡迎閱讀
原標題:開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數(shù)學99.2分刷爆測試集
關鍵字:報告,模型,錯誤,標簽,基準
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAI開源大模型王座突然易主,居然來自一家小創(chuàng)業(yè)團隊,瞬間引爆業(yè)界。
新模型名為Reflection 70B,使用一種全新訓練技術,讓AI學會在推理過程中糾正自己的錯誤和幻覺。
比如最近流行的數(shù)r測試中,一開始它犯了和大多數(shù)模型一樣的錯誤,但主動在標簽中糾正了自己。
在官方評測中,70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數(shù)學基準GSM8K上直接刷爆,得分99.2%。
這個結(jié)果也讓OpenAI科學家、德?lián)銩I之父Noam Brown開麥:
GSM8K得分99%!是不是可以正式淘汰這個基準了?
模型剛剛上線網(wǎng)友就把試玩擠爆了,對此Meta還主動支援了更多算力。
在網(wǎng)友測試中,Reflection 70B能回答對GSM8K數(shù)據(jù)集中本身答案錯誤的問題:
我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。
模型沒有重復數(shù)據(jù)集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那99.2%的準確率并非來自于記憶測試
原文鏈接:開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數(shù)學99.2分刷爆測試集
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...