<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        AIGC動態3個月前發布 智猩猩GenAI
        340 0 0

        本文對幾個主流的開源模型系列采用的RL策略進行探討和總結。

        從DeepSeek到LLaMA,主流開源LLM的RL策略深討

        原標題:從DeepSeek到LLaMA,主流開源LLM的RL策略深討
        文章來源:智猩猩GenAI
        內容字數:5597字

        開源LLM模型的RLHF策略對比

        本文總結了DeepSeek、Qwen和LLaMA等主流開源大模型在強化學習自適應微調(RLHF)階段的不同策略和實現方法。RLHF是提升LLM與人類偏好一致性的關鍵環節,這些模型在策略選擇和工程實現上各有特點。

        1. 算法選擇:GRPO/PPO與DPO之爭

        1. 在強化學習算法選擇上,目前GRPO、PPO和DPO三者之間沒有絕對的優劣之分。DeepSeek系列偏向于使用GRPO,Qwen系列則結合了DPO和PPO(或GRPO),而LLaMA系列則更傾向于使用DPO。

        2. DeepSeek早期使用DPO,后轉向PPO,最終采用GRPO。GRPO通過估計基線值來優化策略模型,省去了critic model。DeepSeek-V3還引入了self-rewarding策略,讓模型能夠自我改進。

        3. Qwen系列從PPO過渡到DPO,并結合離線和在線訓練階段。Qwen2.5-Coder僅使用離線DPO,結合代碼沙箱和LLM-as-judge方法評估代碼質量。

        4. LLaMA系列采用迭代式策略,結合Rejection Sampling和PPO(或DPO)進行優化,通過多次采樣和選擇逐步提升模型性能。LLaMA-3系列則改用DPO,并對Reward Model的訓練方法進行了調整。

        2. 獎勵模型(RM)的重要性

        1. 無論采用哪種強化學習算法,獎勵模型(RM)都是至關重要的。即使使用DPO,也需要RM進行Rejection Sampling來選擇高質量的訓練樣本。

        2. 各個模型在每次更新中都對RM的優化進行了改進,包括rule-based RM和model-based RM的并重,以及利用思維鏈(CoT)數據來增強RM的可靠性。

        3. RL階段的必要性

        1. 簡單的監督微調(SFT)已經不足以滿足對LLM能力的要求,尤其是在代碼生成和數學推理等強推理場景下。

        2. RL階段的訓練能夠顯著提升模型的性能,例如在DeepSeek-V2中,RL階段的訓練顯著提升了模型在數學和代碼任務上的表現。

        3. 然而,RL訓練也可能帶來“對齊稅”,即模型在某些標準基準測試上的性能下降,這需要在模型性能和人類偏好對齊之間進行權衡。

        4. 各模型RLHF策略總結

        1. **DeepSeek:** 從DPO到PPO,最終采用GRPO,并結合rule-based和model-based RM,以及self-rewarding策略。

        2. **Qwen:** 從PPO到DPO,結合離線和在線訓練階段,Qwen2.5-Coder則只使用離線DPO。

        3. **LLaMA:** 采用迭代式策略,結合Rejection Sampling和PPO/DPO,逐步提升模型性能。

        總而言之,開源LLM模型在RLHF策略上不斷探索和改進,未來可能會有更多高效且有效的策略出現,以提升LLM的性能和與人類偏好的一致性。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲高清一区二区三区电影| 亚洲午夜福利在线观看| 午夜视频在线免费观看| 亚洲精品99久久久久中文字幕| 亚洲av永久无码精品天堂久久| 一级毛片免费观看不卡视频| 亚洲国产天堂在线观看| 亚洲男人天堂影院| 日本片免费观看一区二区| 国产成人免费a在线资源| 亚洲码和欧洲码一码二码三码| 亚洲免费视频一区二区三区| 亚洲精品动漫人成3d在线 | 成人片黄网站色大片免费观看APP| **真实毛片免费观看| 久久综合亚洲色HEZYO社区 | 浮力影院第一页小视频国产在线观看免费 | 亚洲卡一卡2卡三卡4麻豆| 91成人免费观看| 亚洲AV无码一区二区三区国产 | 久久精品国产亚洲AV网站| 久久青草91免费观看| 国产精品亚洲美女久久久| 亚洲美女aⅴ久久久91| 国产成人精品免费午夜app| 亚洲一本到无码av中文字幕| 免费成人av电影| 亚洲欧美国产欧美色欲| 日韩亚洲国产综合久久久| 香蕉大伊亚洲人在线观看| 国产精品国产自线拍免费软件| 污视频网站在线免费看| 亚洲国产精品乱码一区二区| 精品国产污污免费网站aⅴ| 亚洲AV日韩AV无码污污网站| 色噜噜AV亚洲色一区二区| 黄色一级毛片免费看| 亚洲AV无码第一区二区三区| 毛片免费视频播放| 一个人看的www免费高清| 免费一看一级毛片全播放|