思考16小時后……o3選擇了交白卷。

原標題:一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會
文章來源:機器之心
內容字數:3095字
OpenAI 的 o3 模型:ARC-AGI 基準測試及局限性分析
OpenAI 最新發布的推理模型 o3 和 o3-mini 實現了在 ARC-AGI 基準測試上的突破,這是首個突破該基準的 AI 模型。ARC-AGI 基準測試已存在五年,一直未被攻克,該基準要求 AI 根據配對的「輸入-輸出」示例尋找規律,并基于輸入預測輸出。o3 在低計算量模式下每個任務需花費 17-20 美元,高計算量模式下則需數千美元。
o3 模型的突破與局限性
o3 模型在 ARC-AGI 基準測試中最低性能可達 75.7%,最高可達 87.5%(使用更多計算資源)。相比之下,o1 模型的準確率僅在 25% 到 32% 之間。但這并不意味著 o3 達到了 AGI 水平。在 400 個任務中,仍有 34 個任務 o3 無法解決,即使經過 16 小時的思考。
o3 失敗案例分析:空間推理能力不足
文章分析了 o3 失敗的幾個案例,主要集中在空間推理方面。例如,在涉及二維網格操作的任務中,o3 常常出現照抄題干、答案錯位、漏行漏列等問題,這表明其在處理空間信息和模式識別方面存在顯著不足。即使在簡單的圖形操作中,o3 也表現出明顯的局限性,無法準確識別和操作二維物體。
o3 失敗案例細節
一個案例中,o3 無確輸出網格,因為它無法處理在某些列上添加了錯誤的額外方塊的情況。另一個案例中,o3 對于方塊類型的題目完全束手無策,多次出現少生成一行或列的情況,表明其在處理重復模式和記憶方面存在缺陷。某些任務中,o3 的第一次嘗試是正確的,但第二次嘗試卻給出了完全錯誤的答案,甚至直接“擺爛”。
對未來研究的啟示
盡管 o3 在 ARC-AGI 基準測試中取得了顯著進展,但其在某些簡單任務上的失敗也揭示了其與人類智能的根本差異。這些失敗案例為未來的 AI 研究提供了寶貴的經驗,提示我們需要進一步提升 AI 在空間推理、模式識別和記憶等方面的能力。
Keras 之父的評價
ARC-AGI 發起者 Fran?ois Chollet 指出,o3 的高昂成本以及在一些簡單任務上的失敗,表明其并非真正的 AGI。他認為,o3 的表現并非僅僅是暴力計算的結果,而是人工智能適應新任務能力的重大飛躍,但仍然存在根本性的局限性。
總而言之,OpenAI 的 o3 模型在推理能力方面取得了顯著進展,但距離真正的 AGI 還有很長的路要走。其在空間推理和模式識別方面的不足,為未來的 AI 研究指明了方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

粵公網安備 44011502001135號