陶哲軒聯(lián)手60多位數(shù)學家出題,世界頂尖模型通過率僅2%!專家級數(shù)學基準,讓AI再苦戰(zhàn)數(shù)年
AIGC動態(tài)歡迎閱讀
原標題:陶哲軒聯(lián)手60多位數(shù)學家出題,世界頂尖模型通過率僅2%!專家級數(shù)學基準,讓AI再苦戰(zhàn)數(shù)年
關(guān)鍵字:數(shù)學,模型,基準,測試,問題
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:Hjh
【新智元導讀】Epoch AI推出數(shù)學基準FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,F(xiàn)rontierMath測試成功率突破的那一天,會是AI發(fā)展過程中一個全新的里程碑。數(shù)學為評估復雜推理提供了一個獨特而合適的測試平臺。它需要一定的創(chuàng)造力和精確的邏輯鏈條——通常涉及復雜的證明,這些證明必須縝密地籌劃和執(zhí)行。同時,數(shù)學還允許對結(jié)果進行客觀驗證。
在鋪天蓋地的宣傳中,LLM看起來已經(jīng)攻破了數(shù)學大關(guān)。但果真如此嗎?
不久前,來自蘋果的研究院團隊證明,就算是在數(shù)學這些基礎(chǔ)科學方面最先進的o1模型,其卓越的表現(xiàn)也是來源于對特定數(shù)據(jù)集針對性的持續(xù)優(yōu)化。
所以為了更好的檢驗模型對于數(shù)學問題的理解與解決能力,我們需要一個更加全面而行之有效的數(shù)學測試基準。
近日,Epoch AI聯(lián)合六十余位全世界的數(shù)學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數(shù)學基準FrontierMath。其包括數(shù)
原文鏈接:陶哲軒聯(lián)手60多位數(shù)學家出題,世界頂尖模型通過率僅2%!專家級數(shù)學基準,讓AI再苦戰(zhàn)數(shù)年
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: