陶哲軒聯手60多位數學家出題，世界頂尖模型通過率僅2%！專家級數學基準，讓AI再苦戰數年

AIGC動態歡迎閱讀

原標題：陶哲軒聯手60多位數學家出題，世界頂尖模型通過率僅2%！專家級數學基準，讓AI再苦戰數年
關鍵字：數學,模型,基準,測試,問題
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：Hjh
【新智元導讀】Epoch AI推出數學基準FrontierMath，目前前沿模型測試成功率均低于2%！OpenAI研究科學家Noam Brown說道：「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來，外面是一片嶄新的雪地，完全沒有人跡。」或許，FrontierMath測試成功率突破的那一天，會是AI發展過程中一個全新的里程碑。數學為評估復雜推理提供了一個獨特而合適的測試平臺。它需要一定的創造力和精確的邏輯鏈條——通常涉及復雜的證明，這些證明必須縝密地籌劃和執行。同時，數學還允許對結果進行客觀驗證。
在鋪天蓋地的宣傳中，LLM看起來已經攻破了數學大關。但果真如此嗎？
不久前，來自蘋果的研究院團隊證明，就算是在數學這些基礎科學方面最先進的o1模型，其卓越的表現也是來源于對特定數據集針對性的持續優化。
所以為了更好的檢驗模型對于數學問題的理解與解決能力，我們需要一個更加全面而行之有效的數學測試基準。
近日，Epoch AI聯合六十余位全世界的數學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出了全新的數學基準FrontierMath。其包括數

原文鏈接：陶哲軒聯手60多位數學家出題，世界頂尖模型通過率僅2%！專家級數學基準，讓AI再苦戰數年