o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學(xué)家合力提出新數(shù)學(xué)基準(zhǔn),大模型正確率通通不足2%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學(xué)家合力提出新數(shù)學(xué)基準(zhǔn),大模型正確率通通不足2%
關(guān)鍵字:模型,基準(zhǔn),數(shù)學(xué),問(wèn)題,答案
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
一水 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI讓大模型集體吃癟,數(shù)學(xué)題正確率通通不到2%!
獲大神卡帕西力薦,大模型新數(shù)學(xué)基準(zhǔn)來(lái)勢(shì)洶洶——
一出手,曾在國(guó)際數(shù)學(xué)奧賽中拿下83%解題率的o1模型就敗下陣來(lái),并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。
所以,新挑戰(zhàn)者到底啥來(lái)頭??
一打聽,這個(gè)新數(shù)學(xué)基準(zhǔn)名為FrontierMath,由Epoch AI這家非營(yíng)利研究機(jī)構(gòu)號(hào)召陶哲軒在內(nèi)的60多位頂尖數(shù)學(xué)家提出。
這群人這次鐵了心要給AI上難度,直接原創(chuàng)了數(shù)百道極具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題——
從數(shù)論中計(jì)算密集型問(wèn)題到代數(shù)幾何和范疇論中的抽象問(wèn)題,涵蓋了現(xiàn)代數(shù)學(xué)的大多數(shù)主要分支。
這些題有多難呢?按數(shù)學(xué)大佬陶哲軒對(duì)這項(xiàng)研究的評(píng)價(jià)說(shuō):
大模型們,至少需要再戰(zhàn)個(gè)幾年吧。
同時(shí),卡帕西也表示非常喜歡這一新基準(zhǔn),甚至樂(lè)于見到大模型們“吃癟”:
之所以引入這個(gè)基準(zhǔn),是因?yàn)榇竽P驮絹?lái)越多地碾壓現(xiàn)有的數(shù)學(xué)基準(zhǔn)
FrontierMath:評(píng)估AI高級(jí)數(shù)學(xué)推理能力的新基準(zhǔn)今年以來(lái),大語(yǔ)言模型(LLM)開始在各種數(shù)學(xué)benchmark上瘋狂刷分,而且正確
原文鏈接:o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學(xué)家合力提出新數(shù)學(xué)基準(zhǔn),大模型正確率通通不足2%
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: