開源大模型新王干翻GPT-4o，新技術可糾正自己幻覺，數學99.2分刷爆測試集

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：開源大模型新王干翻GPT-4o，新技術可糾正自己幻覺，數學99.2分刷爆測試集
關鍵字：報告,模型,錯誤,標簽,基準
文章來源：量子位
內容字數：0字

內容摘要：

西風發自凹非寺量子位 | 公眾號 QbitAI開源大模型王座突然易主，居然來自一家小創業團隊，瞬間引爆業界。
新模型名為Reflection 70B，使用一種全新訓練技術，讓AI學會在推理過程中糾正自己的錯誤和幻覺。
比如最近流行的數r測試中，一開始它犯了和大多數模型一樣的錯誤，但主動在標簽中糾正了自己。
在官方評測中，70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特別是數學基準GSM8K上直接刷爆，得分99.2%。
這個結果也讓OpenAI科學家、德撲AI之父Noam Brown開麥：
GSM8K得分99%！是不是可以正式淘汰這個基準了？
模型剛剛上線網友就把試玩擠爆了，對此Meta還主動支援了更多算力。
在網友測試中，Reflection 70B能回答對GSM8K數據集中本身答案錯誤的問題：
我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。
模型沒有重復數據集中的錯誤答案，而是全部回答對了，這很令人印象深刻，表明那99.2%的準確率并非來自于記憶測試

原文鏈接：開源大模型新王干翻GPT-4o，新技術可糾正自己幻覺，數學99.2分刷爆測試集