<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        復現DeepSeek Zero的RL調參經驗

        AIGC動態3個月前發布 智猩猩GenAI
        302 0 0

        關于zero-rl的碎碎念和想法

        復現DeepSeek Zero的RL調參經驗

        原標題:復現DeepSeek Zero的RL調參經驗
        文章來源:智猩猩GenAI
        內容字數:7366字

        智猩猩DeepSeek大解讀:基于Base模型的強化學習

        本文總結了haotian在知乎發表的文章,探討了基于Base模型的強化學習(RL)方法,相較于傳統的cold-start-SFT->RL流程,作者更推崇直接在Base模型上進行RL。

        1. 基于Base模型的RL的理論優勢

        1.1 作者將PPO算法解釋為貝葉斯推理,并推導出殘差能量模型的形式。這使得問題轉化為如何高效地從最優分布中采樣。方法包括:使用帶參數的策略逼近最優分布(方法1,即傳統的RL方法及其變種);使用高效的MCMC采樣方法從最優分布中采樣(方法2)。方法1除了傳統的RL方法,還可以使用其他能量模型的參數估計方法。

        1.2 過去基于SFT模型的RL效果不佳的原因在于Base模型的質量和RL搜索空間巨大,導致優化復雜度高。但隨著預訓練模型的改進(例如加入更多推理數據),在Base模型上進行zero-RL變得更可行且有效。

        2. 基于Base模型的RL的實踐挑戰

        2.1 LLM的RL與傳統RL不同,LLM產生響應并獲得獎勵的過程缺乏與環境的多步交互,更像是一個bandit問題。并且,LLM本身經過預訓練和微調,并非純粹的預訓練模型。

        2.2 傳統RL的技巧在LLM上適用性存疑。許多傳統RL技巧是在隨機初始化模型上使用的,LLM的預訓練特性使得這些技巧的必要性降低。

        2.3 除了RL,其他生成模型的優化方法和MCMC采樣也可能適用于LLM,同樣需要評估傳統技巧的適用性和必要性。

        3. 基于Base模型的RL的實際指導意義

        3.1 直接在Base模型上進行RL,相當于用帶參數的分布擬合最優分布。這為Base模型的優化提供了新方向:分析最優分布采樣樣本的模式和效果,修正Base模型的數據分布,提升數據分布覆蓋率,糾正模型的頑固特性。

        3.2 基于Base模型RL得到的答案更貼合Base模型的分布特征,因此基于此數據集進行SFT,應該能得到更好的Instruction模型。

        4. zero-RL的復現關鍵點

        4.1 訓練穩定性:需要穩定訓練上千個步驟,而非僅僅幾個步驟。

        4.2 獎勵和響應長度的同步增長:如果響應長度不增長,則會退化為傳統的短文本Instruction模型的RL,效果有限。

        4.3 rule-verified的獎勵模型:使用rule-verified的PPO驗證至關重要。如果無法實現持續增長,則使用更復雜的獎勵模型(例如BT-RM)的優化將更加困難。

        4.4 與現有模型的對比:在32B模型上達到與DeepSeek-R1技術報告中Qwen-25-32b-zero相當的效果,是一個可比的基線。

        5. 實驗結果與結論

        5.1 在7B-32B模型上的實驗表明,不同的RL算法差異不顯著,超參數調整(例如學習率、預熱步數)影響有限。

        5.2 KL約束會限制模型的探索,在Base模型上的RL,早期探索更為重要。移除KL約束后,模型表現更好,reward和response長度同步增長。

        5.3 Prompt模板對結果影響較大,不合適的模板可能訓練出類似Instruction風格的模型。

        5.4 最樸素的方法(例如Reinforce)可能最有效。

        6. 未來展望

        6.1 結合環境交互的RL框架是一個重要的方向,但需要構建合適的環境。

        6.2 其他生成模型的優化/采樣方法(例如EBM)也值得探索。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久国产精品免费一区| 免费高清A级毛片在线播放| 亚洲乱码无限2021芒果| 亚洲丁香婷婷综合久久| 久久免费99精品国产自在现线 | 亚洲色无码专区一区| h片在线播放免费高清 | 国产亚洲中文日本不卡二区| 免费的黄网站男人的天堂| 四虎永久在线免费观看| 亚洲最新中文字幕| 一区二区视频免费观看| 成年女人毛片免费播放人| 亚洲AV无码国产丝袜在线观看| 亚洲成a人无码亚洲成www牛牛| 无码免费午夜福利片在线| 亚洲AV第一页国产精品| 九九免费精品视频在这里| 亚洲日韩国产一区二区三区| 中文字幕在线观看亚洲视频| 中文字幕免费在线看电影大全| 免费特级黄毛片在线成人观看| 亚洲黄色在线观看视频| 你懂得的在线观看免费视频| 免费国产美女爽到喷出水来视频| 亚洲成综合人影院在院播放| 免费人成视频在线| 亚洲欧洲另类春色校园网站| 日本媚薬痉挛在线观看免费| 亚洲人成色777777老人头| 亚洲一区免费视频| 久久久久亚洲av无码专区| 最近中文字幕大全免费版在线| 亚洲免费日韩无码系列 | 亚洲av中文无码乱人伦在线播放| 日本视频在线观看永久免费| 亚洲a一级免费视频| 一个人看www在线高清免费看| 一级毛片无遮挡免费全部| 99久久精品国产亚洲| 免费国产成人高清视频网站|