AIGC動態歡迎閱讀
原標題:o1規劃能力首測!已超越語言模型范疇,preview終于贏mini一回
關鍵字:模型,準確率,積木,作者,變體
文章來源:量子位
內容字數:0字
內容摘要:
克小西 發自 凹非寺量子位 | 公眾號 QbitAIo1-preview終于贏過了mini一次!
亞利桑那州立大學的最新研究表明,o1-preview在規劃任務上,表現顯著優于o1-mini。
相比于傳統模型的優勢更是碾壓級別,在超難任務上的準確率比Llama3.1-405B高了11倍。
要知道之前,OpenAI自己人也發了一張圖,顯示preview論性能比不過滿血版,論經濟性又不如mini,處于一個十分尷尬的地位。
作者在推文中表示,盡管存在可保證性和成本問題,但僅針對CoT而言,o1已經超越了大模型的“近似檢索”性質,提升到了“近似推理”層次。
并且在論文中,o1全程被稱作LRM(Large Reasoning Model,大型推理模型),而非一般大型語言模型的LLM。
o1團隊的核心成員Noam Brown也轉發了這項研究,順便給o1-preview打了個call。
還有網友翻出了隔壁Meta的LeCun半個多月前的推文,當時LeCun說大模型沒有規劃能力,結果現在OpenAI就帶著o1來踢館了。
用“搭積木”測試大模型為了評估o1系列模型的規劃能力,作者使用了PlanBench
原文鏈接:o1規劃能力首測!已超越語言模型范疇,preview終于贏mini一回
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...