今日arXiv最熱大模型論文:清華大學(xué)發(fā)布,ChatGML又添新功能,集成“自我批評(píng)”,提升數(shù)學(xué)能力
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱大模型論文:清華大學(xué)發(fā)布,ChatGML又添新功能,集成“自我批評(píng)”,提升數(shù)學(xué)能力
關(guān)鍵字:模型,數(shù)學(xué),數(shù)據(jù),能力,問(wèn)題
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9244字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 松果
引言:數(shù)學(xué)問(wèn)題解決在大語(yǔ)言模型中的挑戰(zhàn)在當(dāng)今的人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models,LLMs)已經(jīng)在理解和生類(lèi)語(yǔ)言方面取得了顯著的進(jìn)展。這些模型在文本摘要、問(wèn)答、角色扮演對(duì)話等多種語(yǔ)言任務(wù)上展現(xiàn)出了驚人的能力。然而,當(dāng)這些模型被應(yīng)用于需要數(shù)學(xué)推理的復(fù)雜問(wèn)題時(shí),它們的表現(xiàn)往往不盡如人意。盡管開(kāi)發(fā)了許多策略和數(shù)據(jù)集來(lái)增強(qiáng)LLMs在數(shù)學(xué)方面的能力,但在實(shí)際部署的LLM系統(tǒng)中同時(shí)保持和提升語(yǔ)言和數(shù)學(xué)能力仍然是一個(gè)顯著的挑戰(zhàn)。
傳統(tǒng)的通過(guò)人類(lèi)反饋進(jìn)行強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)方法主要是通過(guò)反映人類(lèi)偏好的獎(jiǎng)勵(lì)模型來(lái)增強(qiáng)文本生成的質(zhì)量。雖然這種方法提升了生成文本的質(zhì)量,但它通常忽視了解決數(shù)學(xué)問(wèn)題所必需的準(zhǔn)確性和邏輯連貫性,導(dǎo)致在數(shù)學(xué)推理任務(wù)上的表現(xiàn)出現(xiàn)所謂的“對(duì)齊稅”(alignment tax)。與此相反,旨在增強(qiáng)LLMs數(shù)學(xué)能力的嘗試通常涉及到監(jiān)督式微調(diào)(Supervised Fine-tuning,SFT),這不可避免地會(huì)降低它們?cè)谡Z(yǔ)言多樣性上的
原文鏈接:今日arXiv最熱大模型論文:清華大學(xué)發(fā)布,ChatGML又添新功能,集成“自我批評(píng)”,提升數(shù)學(xué)能力
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189