ACL 2024 | 對25個開閉源模型數學評測，GPT-3.5-Turbo才勉強及格

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：ACL 2024 | 對25個開閉源模型數學評測，GPT-3.5-Turbo才勉強及格
關鍵字：問題,騰訊,數學,變體,性能
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者來自香港大學和騰訊。作者列表：李沁桐，Leyang Cui，趙學亮，孔令鵬，Wei Bi。其中，第一作者李沁桐是香港大學自然語言處理實驗室的博士生，研究方向涉及自然語言生成和文本推理，與博士生趙學亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高級研究員。
前言
大型語言模型（LLMs）在解決問題方面的非凡能力日益顯現。最近，一個值得關注的現象是，這些模型在多項數學推理的基準測試中獲得了驚人的成績。以 GPT-4 為例，在高難度小學應用題測試集 GSM8K [1] 中表現優異，準確率高達 90% 以上。同時，許多開源模型也展現出了不俗的實力，準確率超過 80%。
然而在使用中我們經常會發現，當數學問題稍作改變時，LLMs 可能會出現

原文鏈接：ACL 2024 | 對25個開閉源模型數學評測，GPT-3.5-Turbo才勉強及格