o1/Claude集體翻車！陶哲軒等60+頂尖數學家合力提出新數學基準，大模型正確率通通不足2%

AIGC動態歡迎閱讀

原標題：o1/Claude集體翻車！陶哲軒等60+頂尖數學家合力提出新數學基準，大模型正確率通通不足2%
關鍵字：模型,基準,數學,問題,答案
文章來源：量子位
內容字數：0字

內容摘要：

一水發自凹非寺量子位 | 公眾號 QbitAI讓大模型集體吃癟，數學題正確率通通不到2%！
獲大神卡帕西力薦，大模型新數學基準來勢洶洶——
一出手，曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。
所以，新挑戰者到底啥來頭？？
一打聽，這個新數學基準名為FrontierMath，由Epoch AI這家非營利研究機構號召陶哲軒在內的60多位頂尖數學家提出。
這群人這次鐵了心要給AI上難度，直接原創了數百道極具挑戰性的數學問題——
從數論中計算密集型問題到代數幾何和范疇論中的抽象問題，涵蓋了現代數學的大多數主要分支。
這些題有多難呢？按數學大佬陶哲軒對這項研究的評價說：
大模型們，至少需要再戰個幾年吧。
同時，卡帕西也表示非常喜歡這一新基準，甚至樂于見到大模型們“吃癟”：
之所以引入這個基準，是因為大模型越來越多地碾壓現有的數學基準
FrontierMath：評估AI高級數學推理能力的新基準今年以來，大語言模型（LLM）開始在各種數學benchmark上瘋狂刷分，而且正確

原文鏈接：o1/Claude集體翻車！陶哲軒等60+頂尖數學家合力提出新數學基準，大模型正確率通通不足2%