今日arXiv最熱大模型論文：清華大學(xué)發(fā)布，ChatGML又添新功能，集成“自我批評(píng)”，提升數(shù)學(xué)能力

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說(shuō)

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：今日arXiv最熱大模型論文：清華大學(xué)發(fā)布，ChatGML又添新功能，集成“自我批評(píng)”，提升數(shù)學(xué)能力
關(guān)鍵字：模型,數(shù)學(xué),數(shù)據(jù),能力,問(wèn)題
文章來(lái)源：夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù)：9244字

內(nèi)容摘要：

夕小瑤科技說(shuō) 原創(chuàng)作者 | 松果
引言：數(shù)學(xué)問(wèn)題解決在大語(yǔ)言模型中的挑戰(zhàn)在當(dāng)今的人工智能領(lǐng)域，大語(yǔ)言模型（Large Language Models，LLMs）已經(jīng)在理解和生類(lèi)語(yǔ)言方面取得了顯著的進(jìn)展。這些模型在文本摘要、問(wèn)答、角色扮演對(duì)話等多種語(yǔ)言任務(wù)上展現(xiàn)出了驚人的能力。然而，當(dāng)這些模型被應(yīng)用于需要數(shù)學(xué)推理的復(fù)雜問(wèn)題時(shí)，它們的表現(xiàn)往往不盡如人意。盡管開(kāi)發(fā)了許多策略和數(shù)據(jù)集來(lái)增強(qiáng)LLMs在數(shù)學(xué)方面的能力，但在實(shí)際部署的LLM系統(tǒng)中同時(shí)保持和提升語(yǔ)言和數(shù)學(xué)能力仍然是一個(gè)顯著的挑戰(zhàn)。
傳統(tǒng)的通過(guò)人類(lèi)反饋進(jìn)行強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）方法主要是通過(guò)反映人類(lèi)偏好的獎(jiǎng)勵(lì)模型來(lái)增強(qiáng)文本生成的質(zhì)量。雖然這種方法提升了生成文本的質(zhì)量，但它通常忽視了解決數(shù)學(xué)問(wèn)題所必需的準(zhǔn)確性和邏輯連貫性，導(dǎo)致在數(shù)學(xué)推理任務(wù)上的表現(xiàn)出現(xiàn)所謂的“對(duì)齊稅”（alignment tax）。與此相反，旨在增強(qiáng)LLMs數(shù)學(xué)能力的嘗試通常涉及到監(jiān)督式微調(diào)（Supervised Fine-tuning，SFT），這不可避免地會(huì)降低它們?cè)谡Z(yǔ)言多樣性上的

原文鏈接：今日arXiv最熱大模型論文：清華大學(xué)發(fā)布，ChatGML又添新功能，集成“自我批評(píng)”，提升數(shù)學(xué)能力

聯(lián)系作者

文章來(lái)源：夕小瑤科技說(shuō)
作者微信：xixiaoyaoQAQ
作者簡(jiǎn)介：專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員，覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作：zym5189

閱讀原文