ACL 2024 | 對(duì)25個(gè)開閉源模型數(shù)學(xué)評(píng)測(cè),GPT-3.5-Turbo才勉強(qiáng)及格
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ACL 2024 | 對(duì)25個(gè)開閉源模型數(shù)學(xué)評(píng)測(cè),GPT-3.5-Turbo才勉強(qiáng)及格
關(guān)鍵字:問題,騰訊,數(shù)學(xué),變體,性能
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者來自香港大學(xué)和騰訊。作者列表:李沁桐,Leyang Cui,趙學(xué)亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學(xué)自然語言處理實(shí)驗(yàn)室的博士生,研究方向涉及自然語言生成和文本推理,與博士生趙學(xué)亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高級(jí)研究員。
前言
大型語言模型(LLMs)在解決問題方面的非凡能力日益顯現(xiàn)。最近,一個(gè)值得關(guān)注的現(xiàn)象是,這些模型在多項(xiàng)數(shù)學(xué)推理的基準(zhǔn)測(cè)試中獲得了驚人的成績(jī)。以 GPT-4 為例,在高難度小學(xué)應(yīng)用題測(cè)試集 GSM8K [1] 中表現(xiàn)優(yōu)異,準(zhǔn)確率高達(dá) 90% 以上。同時(shí),許多開源模型也展現(xiàn)出了不俗的實(shí)力,準(zhǔn)確率超過 80%。
然而在使用中我們經(jīng)常會(huì)發(fā)現(xiàn),當(dāng)數(shù)學(xué)問題稍作改變時(shí),LLMs 可能會(huì)出現(xiàn)
原文鏈接:ACL 2024 | 對(duì)25個(gè)開閉源模型數(shù)學(xué)評(píng)測(cè),GPT-3.5-Turbo才勉強(qiáng)及格
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: