AIGC動態歡迎閱讀
內容摘要:
金磊 發自 凹非寺量子位 | 公眾號 QbitAI什么?好多大模型的文科成績超一本線,還是最卷的河南省???
△圖源:極客公園沒錯,最近就有這么一項大模型“高考大摸底”評測走紅了。
河南高考文科今年的一本線是521分,根據這項評測,共計四個大模型大于或等于這個分數,其中頭兩名最值得關注:
GPT-4o:562分
字節豆包:542.5分
……
從結果中來看,GPT-4o的表現依舊是處于領先狀態,而在國產大模型這邊,比較亮眼的成績便屬于豆包了。
并且在語文和歷史等科目的成績甚至還超越了GPT-4o。
這也讓不少網友紛紛感慨:
AI文科成績這么好,看來在處理語言和邏輯上還是很有優勢的。
不過有一說一,畢竟國產大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發布僅數月的豆包,真具備此等實力嗎?以及這數學……又是怎么一回事兒?
先看評測榜單要回答上述的問題,我們不妨先來查一查豆包在最新的權威評測榜單中的表現是否一致。
首先有請由智源研究院發布的FlagEval(天秤)。
它的評測方式是這樣的:
對于開源模型, FlagEval會綜合概率選擇和生成兩種方式來評測,對于閉源模型, FlagE
原文鏈接:豆包文科成績超了一本線,為什么理科不行?
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...