開源大模型新王干翻GPT-4o,新技術(shù)可糾正自己幻覺,數(shù)學(xué)99.2分刷爆測試集
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:開源大模型新王干翻GPT-4o,新技術(shù)可糾正自己幻覺,數(shù)學(xué)99.2分刷爆測試集
關(guān)鍵字:報(bào)告,模型,錯(cuò)誤,標(biāo)簽,基準(zhǔn)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI開源大模型王座突然易主,居然來自一家小創(chuàng)業(yè)團(tuán)隊(duì),瞬間引爆業(yè)界。
新模型名為Reflection 70B,使用一種全新訓(xùn)練技術(shù),讓AI學(xué)會(huì)在推理過程中糾正自己的錯(cuò)誤和幻覺。
比如最近流行的數(shù)r測試中,一開始它犯了和大多數(shù)模型一樣的錯(cuò)誤,但主動(dòng)在標(biāo)簽中糾正了自己。
在官方評(píng)測中,70B模型全面超越最強(qiáng)開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數(shù)學(xué)基準(zhǔn)GSM8K上直接刷爆,得分99.2%。
這個(gè)結(jié)果也讓OpenAI科學(xué)家、德?lián)銩I之父Noam Brown開麥:
GSM8K得分99%!是不是可以正式淘汰這個(gè)基準(zhǔn)了?
模型剛剛上線網(wǎng)友就把試玩擠爆了,對(duì)此Meta還主動(dòng)支援了更多算力。
在網(wǎng)友測試中,Reflection 70B能回答對(duì)GSM8K數(shù)據(jù)集中本身答案錯(cuò)誤的問題:
我向模型提供了GSM8K中存在的5個(gè)“ground_truth”本身就不正確的問題。
模型沒有重復(fù)數(shù)據(jù)集中的錯(cuò)誤答案,而是全部回答對(duì)了,這很令人印象深刻,表明那99.2%的準(zhǔn)確率并非來自于記憶測試
原文鏈接:開源大模型新王干翻GPT-4o,新技術(shù)可糾正自己幻覺,數(shù)學(xué)99.2分刷爆測試集
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: