START – 阿里聯(lián)合中科大推出的自學(xué)推理模型
XX是什么
START(Self-Taught Reasoner with Tools)是阿里巴巴集團(tuán)與中國(guó)科學(xué)技術(shù)大合開(kāi)發(fā)的一種新型工具增強(qiáng)型推理模型。該模型通過(guò)結(jié)合外部工具(如Python代碼執(zhí)行器),顯著提升了大型語(yǔ)言模型(LLMs)的推理能力。START運(yùn)用“Hint-infer”技術(shù)在推理過(guò)程中引入提示,以激勵(lì)模型使用外部工具,同時(shí)通過(guò)“Hint-RFT”框架實(shí)現(xiàn)自我學(xué)習(xí)和微調(diào)。START在長(zhǎng)鏈推理(Long CoT)的基礎(chǔ)上,增加了工具調(diào)用的功能,從而在復(fù)雜數(shù)學(xué)問(wèn)題、科學(xué)問(wèn)答和編程挑戰(zhàn)中顯著提高了準(zhǔn)確性與效率。該模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,超越了現(xiàn)有的推理模型,成為首個(gè)將長(zhǎng)鏈推理與工具集成相結(jié)合的開(kāi)源模型。
START的主要功能
- 復(fù)雜計(jì)算與驗(yàn)證:通過(guò)調(diào)用Python代碼執(zhí)行器,進(jìn)行復(fù)雜的數(shù)算、邏輯驗(yàn)證與模擬。
- 自我調(diào)試與優(yōu)化:START能夠執(zhí)行代碼并驗(yàn)證輸出,自動(dòng)識(shí)別錯(cuò)誤并進(jìn)行調(diào)試,提升答案的準(zhǔn)確性。
- 多策略探索:基于提示引導(dǎo)模型嘗試多種推理路徑與方法,增強(qiáng)其在處理復(fù)雜問(wèn)題時(shí)的靈活性與適應(yīng)能力。
- 提升推理效率:借助工具調(diào)用與自我驗(yàn)證,減少模型在復(fù)雜任務(wù)中的幻覺(jué)現(xiàn)象,從而提高推理的效率與可靠性。
START的技術(shù)原理
- 長(zhǎng)鏈推理:繼承長(zhǎng)鏈推理的優(yōu)勢(shì),將問(wèn)題分解為多個(gè)中間推理步驟,模擬人類(lèi)的深入思考過(guò)程,從而提高模型在復(fù)雜任務(wù)中的推理能力。
- 工具集成:START通過(guò)調(diào)用外部工具(如Python代碼執(zhí)行器)來(lái)補(bǔ)充傳統(tǒng)長(zhǎng)鏈推理的不足,模型在推理過(guò)程中生成代碼并用工具驗(yàn)證結(jié)果。
- Hint-infer:在推理過(guò)程中插入人工設(shè)計(jì)的提示,激勵(lì)模型調(diào)用外部工具,指引其在特定節(jié)點(diǎn)進(jìn)行工具調(diào)用,無(wú)需額外的示范數(shù)據(jù)。
- Hint-RFT:結(jié)合Hint-infer與拒絕采樣微調(diào)(RFT),對(duì)模型生成的推理軌跡進(jìn)行評(píng)分、過(guò)濾與調(diào)整,進(jìn)一步提升模型的工具使用能力。
- 自學(xué)習(xí)框架:基于主動(dòng)學(xué)習(xí)方法,從模型生成的推理軌跡中篩選出有價(jià)值的數(shù)據(jù)進(jìn)行微調(diào),實(shí)現(xiàn)模型自我學(xué)習(xí)如何更高效地使用工具。
- 測(cè)試時(shí)擴(kuò)展:在推理結(jié)束時(shí)插入提示,以增加模型的思考時(shí)間和工具調(diào)用次數(shù),從而提高推理的準(zhǔn)確性與成功率。
START的項(xiàng)目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.04625
START的應(yīng)用場(chǎng)景
- 數(shù)學(xué)問(wèn)題求解:用于解決復(fù)雜的數(shù)學(xué)題目,如數(shù)學(xué)競(jìng)賽與高等數(shù)學(xué)問(wèn)題,通過(guò)代碼驗(yàn)證提高準(zhǔn)確性。
- 科學(xué)研究輔助:幫助處理物理、化學(xué)與生物等領(lǐng)域的復(fù)雜計(jì)算與科學(xué)問(wèn)題。
- 編程與調(diào)試:生成代碼并自動(dòng)進(jìn)行調(diào)試,解決編程難題,提升開(kāi)發(fā)效率。
- 跨學(xué)科問(wèn)題解決:綜合運(yùn)用多學(xué)科知識(shí),解決工程設(shè)計(jì)、數(shù)據(jù)分析等復(fù)雜任務(wù)。
- 教育與學(xué)習(xí):作為智能輔導(dǎo)工具,輔助學(xué)生學(xué)習(xí)數(shù)學(xué)與科學(xué),提供詳細(xì)的解題過(guò)程與反饋。
常見(jiàn)問(wèn)題
- START如何提升推理能力?通過(guò)結(jié)合外部工具和長(zhǎng)鏈推理技術(shù),START能夠在復(fù)雜任務(wù)中提供更高的準(zhǔn)確性和效率。
- 使用START需要哪些前置知識(shí)?用戶(hù)需具備一定的Python編程基礎(chǔ),以便理解模型生成的代碼和結(jié)果。
- START適合哪些用戶(hù)群體?START適用于數(shù)學(xué)和科學(xué)研究人員、編程開(kāi)發(fā)者以及對(duì)復(fù)雜問(wèn)題有求解需求的用戶(hù)。
- START的開(kāi)源情況如何?START是首個(gè)將長(zhǎng)鏈推理與工具集成相結(jié)合的開(kāi)源模型,用戶(hù)可使用和改進(jìn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...