豆包文科成績超了一本線，為什么理科不行？

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：豆包文科成績超了一本線，為什么理科不行？
關鍵字：豆包,模型,字節跳動,成績,題目
文章來源：量子位
內容字數：0字

內容摘要：

金磊發自凹非寺量子位 | 公眾號 QbitAI什么？好多大模型的文科成績超一本線，還是最卷的河南省？？？
△圖源：極客公園沒錯，最近就有這么一項大模型“高考大摸底”評測走紅了。
河南高考文科今年的一本線是521分，根據這項評測，共計四個大模型大于或等于這個分數，其中頭兩名最值得關注：
GPT-4o：562分
字節豆包：542.5分
……
從結果中來看，GPT-4o的表現依舊是處于領先狀態，而在國產大模型這邊，比較亮眼的成績便屬于豆包了。
并且在語文和歷史等科目的成績甚至還超越了GPT-4o。
這也讓不少網友紛紛感慨：
AI文科成績這么好，看來在處理語言和邏輯上還是很有優勢的。
不過有一說一，畢竟國產大模型的競爭是如此之激烈，這份評測的排名真的靠譜嗎？發布僅數月的豆包，真具備此等實力嗎？以及這數學……又是怎么一回事兒？
先看評測榜單要回答上述的問題，我們不妨先來查一查豆包在最新的權威評測榜單中的表現是否一致。
首先有請由智源研究院發布的FlagEval（天秤）。
它的評測方式是這樣的：
對于開源模型， FlagEval會綜合概率選擇和生成兩種方式來評測，對于閉源模型， FlagE

原文鏈接：豆包文科成績超了一本線，為什么理科不行？