AIGC動態歡迎閱讀
原標題:LLM仍然不能規劃,刷屏的OpenAI o1遠未達到飽和
關鍵字:模型,報告,測試,能力,實例
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:陳陳、小舟實驗證明,大模型的 System 2 能力還有待開發。
規劃行動方案以實現所需狀態的能力一直被認為是智能體的核心能力。隨著大型語言模型(LLM)的出現,人們對 LLM 是否具有這種規劃能力產生了極大的興趣。
最近,OpenAI 發布了 o1 模型,一舉創造了很多歷史記錄。o1 模型擁有真正的通用推理能力。在一系列高難基準測試中展現出了超強實力,相比 GPT-4o 有巨大提升,讓大模型的上限從「沒法看」直接上升到優秀水平,不專門訓練直接數學奧賽金牌,甚至能在博士級別的科學問答環節上超越人類專家。
那么,o1 模型是否具備上述規劃能力?
2022 年,來自亞利桑那州立大學(ASU)的研究團隊開發了評估 LLM 規劃能力的基準 ——PlanBench。現在,亞利桑那州立大學研究團隊全面審視了當前 LLM 在 PlanBench 上的表現,包括 o1 模型。值得注意的是,雖然 o1 在基準測試上性能超過了競爭對手,但它還遠未達到飽和狀態。論文標題:LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation o
原文鏈接:LLM仍然不能規劃,刷屏的OpenAI o1遠未達到飽和
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...