AIGC動態歡迎閱讀
原標題:實測 OpenAI 最強模型 o1 :做題王者,實戰青銅
關鍵字:能力,模型,問題,官方,答案
文章來源:愛范兒
內容字數:0字
內容摘要:
做題王者
實戰青銅本周OpenAI 突然發布了 o1 系列模型,最大的特點是擅長推理。
模型的能力,一代比一代強,我們的測評,一次比一次難做。測評變成一件「畢恭畢敬」的事情,生怕提不出好問題(難不倒它),在讓它推理之前,我們自己的腦子就快燒沒了。
最重要的原因是:我們想知道,被寄予厚望的新一代模型,有沒有應用到實際生活中的推理能力?以及要如何測出這樣的能力?
秉承著這個想法,我們設計了一套考驗 o1-preview 綜合能力的「考卷」。
省流版結論如下:它擅長做題、搞研究,更像一個適合待在實驗室的高材生,你現在還不能指望它成為生活里的助手。
熱身:數學與邏輯能力強,速度還不慢
發布會的數據大家看了很多,尤其是新一代 o1 在各項任務上的評分,都有超乎以往的表現。比如 OpenAI 的官方文檔里,特別提到 AIME 數學競賽的考試中,o1 都能取得不錯的表現。
快速查了一下,這個 AIME 比賽,考題長這樣:
原題粘貼過去,看看究竟是怎么個超強表現。o1-preview 反應很迅速,上手就開始解題了。
對比一下官方答案完全正確。反應時間也比預計的快,只是思考過程,并不是默認展開。
所以除
原文鏈接:實測 OpenAI 最強模型 o1 :做題王者,實戰青銅
聯系作者
文章來源:愛范兒
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...