推理？別鬧了！現在的 AI 仍然連小學數學題都搞不定！

AIGC動態1年前 (2024)發布 AI范兒

AIGC動態歡迎閱讀

原標題：推理？別鬧了！現在的 AI 仍然連小學數學題都搞不定！
關鍵字：模型,準確率,研究人員,測試,能力
文章來源：AI范兒
內容字數：0字

內容摘要：

“
研究發現，盡管OpenAI和Google等公司強調其AI模型的推理能力，但蘋果的研究表明，當前的大型語言模型（LLMs）在面對微小變化時，推理能力脆弱且不可靠。測試結果顯示，模型依賴于模式匹配，而非真正的邏輯推理，揭示了其在復雜任務中的局限性。最近，OpenAI 和 Google 等公司一直在宣傳他們的人工智能（AI）模型在“推理”方面的先進能力，認為這是技術發展的重要一步。然而，蘋果公司的六位工程師最近做的一項研究發現，這些大型語言模型（LLMs）在面對一些看似小的變化時，其數學推理能力其實很脆弱，也不太可靠。
研究表明，LLMs并沒有真正理解基本概念，而是通過匹配訓練數據中的概率模式來工作。研究人員認為：“現在的LLMs并不具備真正的邏輯推理能力，它們只是模仿在訓練中見過的推理步驟。”
在一篇名為《GSM-Symbolic: 理解大型語言模型數學推理的局限性》的論文中，這六位研究人員使用了一個標準化的數據集，里面有超過8000道小學級別的數學題，通常用來測試現代LLMs的推理能力。他們創新性地修改了測試數據，動態替換了一些名字和數字。例如，原本是索菲為侄子買31塊積木的問題，可

原文鏈接：推理？別鬧了！現在的 AI 仍然連小學數學題都搞不定！