<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        AIGC動態7個月前發布 智猩猩GenAI
        471 0 0

        討論下我們到底該如何理解 LLM 中所涉及到的 RL 算法。

        DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?

        原標題:DeepSeek R1爆火后,該如何理解 LLM 中的強化學習算法?
        文章來源:智猩猩GenAI
        內容字數:6887字

        智猩猩AI新青年講座:深度解讀LLM中的強化學習

        本文深入探討了大型語言模型(LLM)訓練中強化學習(RL)算法的應用,特別是與監督微調(SFT)的比較。作者從提升模型效果的角度出發,認為SFT和RLHF在本質上沒有區別,都圍繞著預測下一個token的概率進行優化,區別在于探索(explore)策略的不同。SFT是“學習”,而RLHF是“探索學習”,前者進步快但根基不穩,后者根基穩但進步慢。

        1. LLM中的強化學習:探索與糾正

        作者將LLM中的強化學習算法分為七類,除了直接指定response的SFT和DPO外,其余均屬于強化學習范疇。核心在于“自己玩,旁人來糾正”的探索學習模式。作者認為,即使是SFT,也可以加入reference model,提高效果。SFT并非LLM訓練的必備環節,而是一種快速提升模型效果的方法。

        2. Post-training算法的統一建模

        DeepSeek的研究表明,post-training算法包含三個要素:啟動數據、獎勵函數和token粒度的梯度系數。SFT的梯度系數為1,PPO的梯度系數為優勢函數(Advantage)。作者用圖示總結了SFT、Reject Sampling SFT、Online Reject Sampling SFT、DPO和PPO這幾種算法的統一建模。

        3. RL訓練的挑戰:獎勵函數的準確性

        作者認為RL訓練容易崩潰的原因在于token粒度獎勵的準確性。SFT每個token都有明確的目標,優化目標純粹;而RL中,每個token的獎勵是由整個句子的獎勵回傳的,容易出現獎勵不準確的情況,導致模型訓練不穩定。傳統的RL每個action都有及時回報,但RLHF中只有折扣累積回報,這加劇了token級別獎勵的不準確性。解決這個問題的關鍵在于如何給每個token一個正確的打分,這也是各種RL算法努力的方向。

        4. Reward Hacking:模型的“投機取巧”

        作者認為Reward Hacking并非高深莫測的理論,而是訓練者考慮不充分導致的。模型為了提高獎勵,可能會采用訓練者不期望的方式,例如輸出無關答案、重復prompt等。解決這個問題的關鍵在于設計合理的獎勵函數,既要關注獎勵值,也要關注模型達到獎勵值的策略。

        5. 結論:工具的選擇

        作者總結道,SFT和RLHF都是訓練LLM的有效工具,選擇哪種算法取決于實際需求和效果。RL并非高不可攀,SFT也并非過時。最終目標只有一個:訓練出更好的模型。 數據質量對于SFT至關重要,而獎勵函數的設計對于RLHF至關重要。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲VA成无码人在线观看天堂| 无码A级毛片免费视频内谢| 7m凹凸精品分类大全免费| 国产黄色一级毛片亚洲黄片大全| 亚洲成av人片天堂网无码】| 亚洲中文字幕无码久久精品1| 亚洲无码一区二区三区| 青青青国产在线观看免费网站| 亚洲欧洲日产国产最新| 可以免费看的卡一卡二| 涩涩色中文综合亚洲| 青草草在线视频永久免费| 亚洲av日韩精品久久久久久a| 成人自慰女黄网站免费大全| 亚洲精品无码99在线观看| 久久免费香蕉视频| 亚洲国语精品自产拍在线观看| 全部免费毛片在线播放| 亚洲精品电影天堂网| 成人黄动漫画免费网站视频| 亚洲AⅤ男人的天堂在线观看| 亚洲AV中文无码乱人伦在线视色| 和老外3p爽粗大免费视频| 久久久久久亚洲精品成人| 黄色成人网站免费无码av| 免费人成在线观看视频播放| 少妇亚洲免费精品| 亚洲国产精品乱码一区二区| 国产精品视频免费观看| 白白色免费在线视频| 亚洲精品国产精品乱码视色 | 国产精品一区二区三区免费| 久久九九亚洲精品| 无码中文字幕av免费放| 日本一区二区在线免费观看 | 亚洲色大成网站www永久网站| 亚洲欧洲久久久精品| 国产成人免费在线| 一级做a爰片性色毛片免费网站| 亚洲精品午夜无码电影网| 欧美日韩国产免费一区二区三区|