實(shí)測 OpenAI 最強(qiáng)模型 o1 :做題王者,實(shí)戰(zhàn)青銅

AIGC動態(tài)歡迎閱讀
原標(biāo)題:實(shí)測 OpenAI 最強(qiáng)模型 o1 :做題王者,實(shí)戰(zhàn)青銅
關(guān)鍵字:能力,模型,問題,官方,答案
文章來源:愛范兒
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
做題王者
實(shí)戰(zhàn)青銅本周OpenAI 突然發(fā)布了 o1 系列模型,最大的特點(diǎn)是擅長推理。
模型的能力,一代比一代強(qiáng),我們的測評,一次比一次難做。測評變成一件「畢恭畢敬」的事情,生怕提不出好問題(難不倒它),在讓它推理之前,我們自己的腦子就快燒沒了。
最重要的原因是:我們想知道,被寄予厚望的新一代模型,有沒有應(yīng)用到實(shí)際生活中的推理能力?以及要如何測出這樣的能力?
秉承著這個想法,我們設(shè)計(jì)了一套考驗(yàn) o1-preview 綜合能力的「考卷」。
省流版結(jié)論如下:它擅長做題、搞研究,更像一個適合待在實(shí)驗(yàn)室的高材生,你現(xiàn)在還不能指望它成為生活里的助手。
熱身:數(shù)學(xué)與邏輯能力強(qiáng),速度還不慢
發(fā)布會的數(shù)據(jù)大家看了很多,尤其是新一代 o1 在各項(xiàng)任務(wù)上的評分,都有超乎以往的表現(xiàn)。比如 OpenAI 的官方文檔里,特別提到 AIME 數(shù)學(xué)競賽的考試中,o1 都能取得不錯的表現(xiàn)。
快速查了一下,這個 AIME 比賽,考題長這樣:
原題粘貼過去,看看究竟是怎么個超強(qiáng)表現(xiàn)。o1-preview 反應(yīng)很迅速,上手就開始解題了。
對比一下官方答案完全正確。反應(yīng)時間也比預(yù)計(jì)的快,只是思考過程,并不是默認(rèn)展開。
所以除
原文鏈接:實(shí)測 OpenAI 最強(qiáng)模型 o1 :做題王者,實(shí)戰(zhàn)青銅
聯(lián)系作者
文章來源:愛范兒
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號