START

AI工具2個(gè)月前更新 AI工具集

1,399 0 0

START – 阿里聯(lián)合中科大推出的自學(xué)推理模型

XX是什么

START（Self-Taught Reasoner with Tools）是阿里巴巴集團(tuán)與中國(guó)科學(xué)技術(shù)大合開(kāi)發(fā)的一種新型工具增強(qiáng)型推理模型。該模型通過(guò)結(jié)合外部工具（如Python代碼執(zhí)行器），顯著提升了大型語(yǔ)言模型（LLMs）的推理能力。START運(yùn)用“Hint-infer”技術(shù)在推理過(guò)程中引入提示，以激勵(lì)模型使用外部工具，同時(shí)通過(guò)“Hint-RFT”框架實(shí)現(xiàn)自我學(xué)習(xí)和微調(diào)。START在長(zhǎng)鏈推理（Long CoT）的基礎(chǔ)上，增加了工具調(diào)用的功能，從而在復(fù)雜數(shù)學(xué)問(wèn)題、科學(xué)問(wèn)答和編程挑戰(zhàn)中顯著提高了準(zhǔn)確性與效率。該模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，超越了現(xiàn)有的推理模型，成為首個(gè)將長(zhǎng)鏈推理與工具集成相結(jié)合的開(kāi)源模型。

START

START的主要功能

復(fù)雜計(jì)算與驗(yàn)證：通過(guò)調(diào)用Python代碼執(zhí)行器，進(jìn)行復(fù)雜的數(shù)算、邏輯驗(yàn)證與模擬。
自我調(diào)試與優(yōu)化：START能夠執(zhí)行代碼并驗(yàn)證輸出，自動(dòng)識(shí)別錯(cuò)誤并進(jìn)行調(diào)試，提升答案的準(zhǔn)確性。
多策略探索：基于提示引導(dǎo)模型嘗試多種推理路徑與方法，增強(qiáng)其在處理復(fù)雜問(wèn)題時(shí)的靈活性與適應(yīng)能力。
提升推理效率：借助工具調(diào)用與自我驗(yàn)證，減少模型在復(fù)雜任務(wù)中的幻覺(jué)現(xiàn)象，從而提高推理的效率與可靠性。

START的技術(shù)原理

長(zhǎng)鏈推理：繼承長(zhǎng)鏈推理的優(yōu)勢(shì)，將問(wèn)題分解為多個(gè)中間推理步驟，模擬人類(lèi)的深入思考過(guò)程，從而提高模型在復(fù)雜任務(wù)中的推理能力。
工具集成：START通過(guò)調(diào)用外部工具（如Python代碼執(zhí)行器）來(lái)補(bǔ)充傳統(tǒng)長(zhǎng)鏈推理的不足，模型在推理過(guò)程中生成代碼并用工具驗(yàn)證結(jié)果。
Hint-infer：在推理過(guò)程中插入人工設(shè)計(jì)的提示，激勵(lì)模型調(diào)用外部工具，指引其在特定節(jié)點(diǎn)進(jìn)行工具調(diào)用，無(wú)需額外的示范數(shù)據(jù)。
Hint-RFT：結(jié)合Hint-infer與拒絕采樣微調(diào)（RFT），對(duì)模型生成的推理軌跡進(jìn)行評(píng)分、過(guò)濾與調(diào)整，進(jìn)一步提升模型的工具使用能力。
自學(xué)習(xí)框架：基于主動(dòng)學(xué)習(xí)方法，從模型生成的推理軌跡中篩選出有價(jià)值的數(shù)據(jù)進(jìn)行微調(diào)，實(shí)現(xiàn)模型自我學(xué)習(xí)如何更高效地使用工具。
測(cè)試時(shí)擴(kuò)展：在推理結(jié)束時(shí)插入提示，以增加模型的思考時(shí)間和工具調(diào)用次數(shù)，從而提高推理的準(zhǔn)確性與成功率。

START的項(xiàng)目地址

arXiv技術(shù)論文：https://arxiv.org/pdf/2503.04625

START的應(yīng)用場(chǎng)景

數(shù)學(xué)問(wèn)題求解：用于解決復(fù)雜的數(shù)學(xué)題目，如數(shù)學(xué)競(jìng)賽與高等數(shù)學(xué)問(wèn)題，通過(guò)代碼驗(yàn)證提高準(zhǔn)確性。
科學(xué)研究輔助：幫助處理物理、化學(xué)與生物等領(lǐng)域的復(fù)雜計(jì)算與科學(xué)問(wèn)題。
編程與調(diào)試：生成代碼并自動(dòng)進(jìn)行調(diào)試，解決編程難題，提升開(kāi)發(fā)效率。
跨學(xué)科問(wèn)題解決：綜合運(yùn)用多學(xué)科知識(shí)，解決工程設(shè)計(jì)、數(shù)據(jù)分析等復(fù)雜任務(wù)。
教育與學(xué)習(xí)：作為智能輔導(dǎo)工具，輔助學(xué)生學(xué)習(xí)數(shù)學(xué)與科學(xué)，提供詳細(xì)的解題過(guò)程與反饋。

常見(jiàn)問(wèn)題

START如何提升推理能力？通過(guò)結(jié)合外部工具和長(zhǎng)鏈推理技術(shù)，START能夠在復(fù)雜任務(wù)中提供更高的準(zhǔn)確性和效率。
使用START需要哪些前置知識(shí)？用戶(hù)需具備一定的Python編程基礎(chǔ)，以便理解模型生成的代碼和結(jié)果。
START適合哪些用戶(hù)群體？START適用于數(shù)學(xué)和科學(xué)研究人員、編程開(kāi)發(fā)者以及對(duì)復(fù)雜問(wèn)題有求解需求的用戶(hù)。
START的開(kāi)源情況如何？START是首個(gè)將長(zhǎng)鏈推理與工具集成相結(jié)合的開(kāi)源模型，用戶(hù)可使用和改進(jìn)。

閱讀原文