<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        AIGC動態7個月前發布 智猩猩GenAI
        350 0 0

        本文對幾個主流的開源模型系列采用的RL策略進行探討和總結。

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        原標題:從DeepSeek到LLaMA,主流開源LLM的RL策略深討
        文章來源:智猩猩GenAI
        內容字數:5597字

        開源LLM模型的RLHF策略對比

        本文總結了DeepSeek、Qwen和LLaMA等主流開源大模型在強化學習自適應微調(RLHF)階段的不同策略和實現方法。RLHF是提升LLM與人類偏好一致性的關鍵環節,這些模型在策略選擇和工程實現上各有特點。

        1. 算法選擇:GRPO/PPO與DPO之爭

        1. 在強化學習算法選擇上,目前GRPO、PPO和DPO三者之間沒有絕對的優劣之分。DeepSeek系列偏向于使用GRPO,Qwen系列則結合了DPO和PPO(或GRPO),而LLaMA系列則更傾向于使用DPO。

        2. DeepSeek早期使用DPO,后轉向PPO,最終采用GRPO。GRPO通過估計基線值來優化策略模型,省去了critic model。DeepSeek-V3還引入了self-rewarding策略,讓模型能夠自我改進。

        3. Qwen系列從PPO過渡到DPO,并結合離線和在線訓練階段。Qwen2.5-Coder僅使用離線DPO,結合代碼沙箱和LLM-as-judge方法評估代碼質量。

        4. LLaMA系列采用迭代式策略,結合Rejection Sampling和PPO(或DPO)進行優化,通過多次采樣和選擇逐步提升模型性能。LLaMA-3系列則改用DPO,并對Reward Model的訓練方法進行了調整。

        2. 獎勵模型(RM)的重要性

        1. 無論采用哪種強化學習算法,獎勵模型(RM)都是至關重要的。即使使用DPO,也需要RM進行Rejection Sampling來選擇高質量的訓練樣本。

        2. 各個模型在每次更新中都對RM的優化進行了改進,包括rule-based RM和model-based RM的并重,以及利用思維鏈(CoT)數據來增強RM的可靠性。

        3. RL階段的必要性

        1. 簡單的監督微調(SFT)已經不足以滿足對LLM能力的要求,尤其是在代碼生成和數學推理等強推理場景下。

        2. RL階段的訓練能夠顯著提升模型的性能,例如在DeepSeek-V2中,RL階段的訓練顯著提升了模型在數學和代碼任務上的表現。

        3. 然而,RL訓練也可能帶來“對齊稅”,即模型在某些標準基準測試上的性能下降,這需要在模型性能和人類偏好對齊之間進行權衡。

        4. 各模型RLHF策略總結

        1. **DeepSeek:** 從DPO到PPO,最終采用GRPO,并結合rule-based和model-based RM,以及self-rewarding策略。

        2. **Qwen:** 從PPO到DPO,結合離線和在線訓練階段,Qwen2.5-Coder則只使用離線DPO。

        3. **LLaMA:** 采用迭代式策略,結合Rejection Sampling和PPO/DPO,逐步提升模型性能。

        總而言之,開源LLM模型在RLHF策略上不斷探索和改進,未來可能會有更多高效且有效的策略出現,以提升LLM的性能和與人類偏好的一致性。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: AV在线亚洲男人的天堂| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 亚洲精品免费在线视频| 一区二区亚洲精品精华液| 亚洲av无码专区在线电影天堂| 永久免费观看黄网站| 美女视频黄a视频全免费网站色窝| 久久国产免费福利永久| 国产免费黄色大片| 亚洲美女视频网址| 精品视频免费在线| 99国产精品免费观看视频| 日韩毛片免费在线观看| 久久精品国产96精品亚洲| 亚洲AV无码XXX麻豆艾秋| 国产美女a做受大片免费| 亚洲人成网站日本片| 久久免费高清视频| 久久精品国产亚洲AV电影| 精品一区二区三区高清免费观看 | 亚洲精品无码久久久久| 亚洲精品国产综合久久久久紧| 亚在线观看免费视频入口| 亚洲国产免费综合| 亚洲国产一区在线| 免费一级毛片在线播放视频免费观看永久| 亚洲免费在线视频播放| 国产精品久久亚洲不卡动漫| 久久不见久久见免费视频7| 亚洲美女又黄又爽在线观看| 亚洲AV无码国产一区二区三区| 日本一区免费电影| 岛国精品一区免费视频在线观看| 免费一级毛片在线播放| 亚洲爆乳成av人在线视菜奈实| 国产jizzjizz视频全部免费| 久久精品成人免费国产片小草| 亚洲精彩视频在线观看| 成人免费视频软件网站| 亚洲一区二区三区写真| 亚洲精品乱码久久久久久蜜桃|