<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        AIGC動態3個月前發布 智猩猩GenAI
        520 0 0

        討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        原標題:DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?
        文章來源:智猩猩GenAI
        內容字數:6887字

        智猩猩AI新青年講座:深度解讀LLM中的強化學習

        本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用,特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發,認為SFT和RLHF在本質上沒有區別,都圍繞著預測下一個token的概率進行優化,區別在于探索(explore)策略的不同。SFT是“學習”,而RLHF是“探索學習”,前者進步快但根基不穩,后者根基穩但進步慢。

        1. LLM中的強化學習:探索與糾正

        作者將LLM中的強化學習算法分為七類,除了直接指定response的SFT和DPO外,其余均屬于強化學習范疇。核心在于“自己玩,旁人來糾正”的探索學習模式。作者認為,即使是SFT,也可以加入reference model,提高效果。SFT并非LLM訓練的必備環節,而是一種快速提升模型效果的方法。

        2. Post-training算法的統一建模

        DeepSeek的研究表明,post-training算法包含三個要素:啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1,PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

        3. RL訓練的挑戰:獎勵函數的準確性

        作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標,優化目標純粹;而RL中,每個token的獎勵是由整個句子的獎勵回傳的,容易出現獎勵不準確的情況,導致模型訓練不穩定。傳統的RL每個action都有及時回報,但RLHF中只有折扣累積回報,這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分,這也是各種RL算法努力的方向。

        4. Reward Hacking:模型的“投機取巧”

        作者認為Reward Hacking并非高深莫測的理論,而是訓練者考慮不充分導致的。模型為了提高獎勵,可能會采用訓練者不期望的方式,例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數,既要關注獎勵值,也要關注模型達到獎勵值的策略。

        5. 結論:工具的選擇

        作者總結道,SFT和RLHF都是訓練LLM的有效工具,選擇哪種算法取決于實際需求和效果。RL并非高不可攀,SFT也并非過時。最終目標只有一個:訓練出更好的模型。 數據質量對于SFT至關重要,而獎勵函數的設計對于RLHF至關重要。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲免费无码在线| 亚洲成av人片一区二区三区| 久久免费的精品国产V∧| 18禁无遮挡无码国产免费网站| 亚洲热妇无码AV在线播放| 久久综合亚洲色一区二区三区| 在线中文高清资源免费观看| 国产免费爽爽视频免费可以看| 一二三四在线观看免费高清中文在线观看 | 亚洲大片在线观看| 免费观看美女裸体网站| 亚洲一区二区视频在线观看| 亚洲伊人久久大香线蕉结合| 亚欧洲精品在线视频免费观看| 日韩精品免费一线在线观看| 十八禁无码免费网站| 日本免费一二区在线电影| 国产aa免费视频| 337p日本欧洲亚洲大胆精品555588| 免费一区二区无码视频在线播放| 一二三四免费观看在线电影| 国产精品久久久久久亚洲影视 | 久久免费看黄a级毛片 | 四虎国产成人永久精品免费| 老汉色老汉首页a亚洲| 亚洲综合无码无在线观看| 成全高清在线观看免费| 久久免费视频精品| 亚洲一区二区三区在线播放| 亚洲国产成人久久综合| 黄色片在线免费观看| 自怕偷自怕亚洲精品| 香蕉视频在线观看免费国产婷婷| 亚洲美女视频一区| 国产精品无码素人福利免费| 亚洲а∨精品天堂在线| 亚洲日韩激情无码一区| 成人免费一区二区三区在线观看| 亚洲精品少妇30p| 久久国产精品免费一区二区三区| 91精品国产免费久久国语蜜臀|