<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        簡(jiǎn)單示例提升DeepSeek-R1美國(guó)數(shù)學(xué)邀請(qǐng)賽AIME分?jǐn)?shù):以步驟為粒度對(duì)齊上下文學(xué)習(xí)與推理

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 量子位
        369 0 0

        上海交大、港中文、上海AI實(shí)驗(yàn)室等最新成果

        簡(jiǎn)單示例提升DeepSeek-R1美國(guó)數(shù)學(xué)邀請(qǐng)賽AIME分?jǐn)?shù):以步驟為粒度對(duì)齊上下文學(xué)習(xí)與推理

        原標(biāo)題:簡(jiǎn)單示例提升DeepSeek-R1美國(guó)數(shù)學(xué)邀請(qǐng)賽AIME分?jǐn)?shù):以步驟為粒度對(duì)齊上下文學(xué)習(xí)推理
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):6532字

        BoostStep:提升大語(yǔ)言模型數(shù)學(xué)推理能力的全新策略

        來(lái)自上海交通大學(xué)、香港中文大學(xué)和上海人工智能實(shí)驗(yàn)室的研究人員提出了一種名為BoostStep的新策略,顯著提升了大語(yǔ)言模型 (LLM) 解決復(fù)雜數(shù)學(xué)問(wèn)題的能力。該策略通過(guò)對(duì)齊上下文學(xué)習(xí)和推理的粒度,解決了傳統(tǒng)少樣本學(xué)習(xí)在多步推理中單步推理能力不足的問(wèn)題,并在多個(gè)數(shù)學(xué)測(cè)試集上取得了顯著成果。

        1. 問(wèn)題背景:?jiǎn)尾酵评硎瞧款i

        大語(yǔ)言模型解決復(fù)雜數(shù)學(xué)問(wèn)題通常采用多步推理策略,即將復(fù)雜問(wèn)題分解為多個(gè)步驟逐步推理。研究人員發(fā)現(xiàn),單步推理是當(dāng)前模型推理能力的瓶頸。即使是先進(jìn)的模型如GPT-4o,也有高達(dá)99.2%的錯(cuò)誤源于單步推理,而非問(wèn)題分解。

        2. 傳統(tǒng)上下文學(xué)習(xí)的局限性

        上下文學(xué)習(xí)通過(guò)引入相似例子來(lái)指導(dǎo)模型推理,但傳統(tǒng)的上下文學(xué)習(xí)以題目為粒度進(jìn)行檢索和指導(dǎo),這導(dǎo)致以下缺陷:

        1. 缺乏解決關(guān)鍵推理步驟所需的示例。
        2. 無(wú)關(guān)步驟甚至?xí)?duì)推理產(chǎn)生負(fù)面影響。
        3. 缺乏推理過(guò)程中的實(shí)時(shí)指導(dǎo)。

        3. BoostStep策略:步驟粒度的上下文學(xué)習(xí)

        BoostStep策略的核心在于將上下文學(xué)習(xí)的粒度從題目細(xì)化到每個(gè)推理步驟。它包含以下關(guān)鍵步驟:

        1. 步驟粒度題庫(kù)構(gòu)建: 利用GPT-4o將解答過(guò)程分解成多個(gè)原子步驟,保證每個(gè)步驟包含一個(gè)完整的思維過(guò)程,避免簡(jiǎn)單的語(yǔ)義分割造成的原子性破壞。
        2. “首次嘗試”檢索策略: 模型先進(jìn)行一次零樣本嘗試,根據(jù)嘗試結(jié)果從題庫(kù)中檢索最相似的步驟,再進(jìn)行正式推理,確保檢索到的例子與當(dāng)前步驟高度相關(guān)。

        4. 實(shí)驗(yàn)結(jié)果:顯著提升性能、潛力、泛化性和魯棒性

        BoostStep在多個(gè)數(shù)學(xué)測(cè)試集上表現(xiàn)出色:

        1. 性能提升: 在不同數(shù)學(xué)評(píng)測(cè)集上,為GPT-4o和Qwen2.5-Math-72B帶來(lái)了4.6%和2.2%的提升,遠(yuǎn)超傳統(tǒng)少樣本學(xué)習(xí)。
        2. 潛力提升: 即使使用MATH數(shù)據(jù)集中的簡(jiǎn)單示例,也能幫助Deepseek-R1在AIME競(jìng)賽中獲得2.2%的提升。
        3. 泛化性提升: 即使例題與待解決問(wèn)題不相似,BoostStep仍然能取得持續(xù)提升,優(yōu)于傳統(tǒng)少樣本學(xué)習(xí)。
        4. 魯棒性提升: 對(duì)題庫(kù)相似度的敏感性較低,在檢索不匹配的情況下性能下降幅度較小。

        5. 擴(kuò)展應(yīng)用:與樹(shù)搜索策略結(jié)合

        BoostStep可以與樹(shù)搜索策略結(jié)合,進(jìn)一步提升數(shù)學(xué)推理能力。通過(guò)在樹(shù)搜索的生成和篩選階段引入步驟樣例,可以獲得高達(dá)8.5%的額外提升。

        6. 結(jié)論

        BoostStep算法通過(guò)步驟粒度的上下文學(xué)習(xí),有效提升了大語(yǔ)言模型的數(shù)學(xué)推理能力,在性能、潛力、泛化性和魯棒性方面均大幅優(yōu)于傳統(tǒng)少樣本學(xué)習(xí),并可與樹(shù)搜索算法結(jié)合,具有廣泛的應(yīng)用前景。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 国产亚洲精彩视频| yellow视频免费在线观看| 亚洲免费视频观看| 亚洲无码一区二区三区| 免费观看亚洲人成网站| 国产区卡一卡二卡三乱码免费| 亚洲欧洲国产成人综合在线观看 | 日本亚洲成高清一区二区三区| 久久青青草原亚洲av无码| 亚洲国产成人精品无码区在线网站| 日韩精品无码免费一区二区三区| 久久精品国产免费观看三人同眠| 四虎永久在线精品免费观看地址 | 色欲色香天天天综合网站免费| 国产在线观看免费完整版中文版 | 国产91色综合久久免费| 亚洲免费视频播放| 在线免费视频一区二区| 久久久久久久综合日本亚洲 | 亚洲欧洲国产综合AV无码久久| 久久青草精品38国产免费| 四虎影视永久免费观看地址| 特黄aa级毛片免费视频播放| 女人张开腿给人桶免费视频| 最新亚洲人成网站在线观看| 91免费精品国自产拍在线不卡| 亚洲中文字幕无码久久综合网| 国产亚洲蜜芽精品久久| 国产啪亚洲国产精品无码| 久久国产精品免费视频| 亚洲午夜成激人情在线影院| 国产成人免费a在线视频色戒| 美女巨胸喷奶水视频www免费| 人人狠狠综合久久亚洲高清| 亚洲精品宾馆在线精品酒店| 四虎影视大全免费入口| 久久精品免费网站网| 亚洲免费电影网站| 亚洲国产一级在线观看| 麻豆高清免费国产一区| 亚洲人成免费电影|