<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數(shù)學(xué)推理極限

        AIGC動態(tài)3個月前發(fā)布 量子位
        443 0 0

        基于結(jié)果獎勵的強化學(xué)習(xí)新范式

        不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數(shù)學(xué)推理極限

        原標題:不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數(shù)學(xué)推理極限
        文章來源:量子位
        內(nèi)容字數(shù):4875字

        上海AI Lab突破數(shù)學(xué)推理瓶頸:強化學(xué)習(xí)超越蒸餾,無需超大模型

        上海AI Lab近日取得重大突破,其基于結(jié)果獎勵的強化學(xué)習(xí)新范式OREAL,在數(shù)學(xué)推理任務(wù)中超越了DeepSeek-R1等超大模型的性能。這項研究顛覆了傳統(tǒng)依賴于蒸餾超大模型的范式,僅通過微調(diào)和基于結(jié)果反饋的強化學(xué)習(xí),便在7B和32B模型上取得了令人矚目的成果。

        1. 挑戰(zhàn)“三重門”:數(shù)學(xué)推理的困境

        當前大模型數(shù)學(xué)推理面臨“三重門”困境:稀疏獎勵困境(僅有最終答案的二元反饋)、局部正確陷阱(部分正確步驟可能誤導(dǎo)模型)以及規(guī)模依賴魔咒(依賴超大模型蒸餾)。

        2. OREAL:重新定義結(jié)果獎勵強化學(xué)習(xí)

        為了解決這些難題,上海AI Lab團隊重新設(shè)計了結(jié)果獎勵強化學(xué)習(xí)算法OREAL。該算法的核心在于對正負樣本和長序列的處理策略:

        1. 正樣本:利用最佳軌跡采樣(BoN)的行為克隆,學(xué)習(xí)最優(yōu)策略。

        2. 負樣本:采用獎勵重塑,維護策略優(yōu)化目標的一致性,避免梯度偏差。

        3. 長序列:設(shè)計token重要性估計器,構(gòu)建序列累計形式的獎勵函數(shù),實現(xiàn)更細粒度的獎勵分配,精確定位核心錯誤步驟。

        OREAL的策略可以概括為:在正確樣本上模仿學(xué)習(xí),在錯誤樣本上偏好學(xué)習(xí),對關(guān)鍵步驟做重點學(xué)習(xí)。

        3. 實驗結(jié)果:超越DeepSeek-R1及其他模型

        在7B和32B模型上,OREAL僅使用4000條高質(zhì)量訓(xùn)練樣本,便取得了顯著成果:Oreal-7B在MATH-500上達到91.0的pass@1準確率,超越了QWQ-32B-Preview和OpenAI-O1-Mini;Oreal-32B在MATH-500上達到95.0的分數(shù),超越了DeepSeek-r1-Distill-Qwen-32B。將OREAL應(yīng)用于DeepSeek-r1-Distill-Qwen-7B后,更是創(chuàng)下了7B模型的新記錄(94.0 pass@1精度)。

        4. 起點模型和數(shù)據(jù)的重要性

        研究團隊還發(fā)現(xiàn),起點模型和訓(xùn)練數(shù)據(jù)對最終模型效果至關(guān)重要。起點模型越強,RL后的性能越好。高質(zhì)量的數(shù)據(jù)集能夠讓模型充分發(fā)揮其潛力。因此,團隊開源了RL訓(xùn)練的數(shù)據(jù)、起點和最終模型,以促進社區(qū)的公平比較和進一步研究。

        5. 結(jié)論與未來展望

        OREAL的成功證明了基于結(jié)果獎勵的強化學(xué)習(xí)在數(shù)學(xué)推理任務(wù)中的巨大潛力,它擺脫了對超大模型蒸餾的依賴,為降低大模型訓(xùn)練成本提供了新的思路。然而,訓(xùn)練數(shù)據(jù)的質(zhì)量、難度和數(shù)量仍然是影響RL性能的關(guān)鍵因素,這為未來的研究留下了空間。

        項目鏈接:https://github.com/InternLM/OREAL

        論文地址:https://arxiv.org/abs/2502.06781

        RL 訓(xùn)練數(shù)據(jù)鏈接:https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

        系列模型地址:https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲日韩国产精品乱-久| 国产精一品亚洲二区在线播放| 亚洲免费闲人蜜桃| 91福利视频免费观看| 亚洲A∨无码无在线观看| 免费国产成人午夜在线观看| 亚洲日韩精品射精日| 在线免费观看h片| 色婷婷六月亚洲婷婷丁香| 先锋影音资源片午夜在线观看视频免费播放| 亚洲色中文字幕无码AV| a级在线免费观看| 中文字幕亚洲综合久久| 国产va免费精品观看精品| 中文字幕亚洲情99在线| 国产午夜免费福利红片| 一二三区免费视频| 亚洲日本va在线视频观看| www.免费在线观看| 亚洲熟女综合色一区二区三区| 欧洲精品免费一区二区三区| 黄页网址大全免费观看12网站| 中文字幕第一页亚洲| 亚洲精品视频免费看| 亚洲国产精品网站在线播放| 亚洲国产日韩a在线播放| 亚洲伊人久久大香线蕉| 最近免费中文字幕大全视频| 亚洲AV无码专区国产乱码不卡| 亚洲AⅤ永久无码精品AA| 久久精品成人免费观看| 亚洲色大18成人网站WWW在线播放 亚洲色大成WWW亚洲女子 | 欧美日韩亚洲精品| 亚洲精品无码专区久久同性男| 男人天堂免费视频| 亚洲Av高清一区二区三区| 亚洲精品色婷婷在线影院| 无人在线观看免费高清| 日韩国产欧美亚洲v片| 久热综合在线亚洲精品| 国产成人高清精品免费鸭子 |