關于zero-rl的碎碎念和想法
原標題:復現DeepSeek Zero的RL調參經驗
文章來源:智猩猩GenAI
內容字數:7366字
智猩猩DeepSeek大解讀:基于Base模型的強化學習
本文總結了haotian在知乎發表的文章,探討了基于Base模型的強化學習(RL)方法,相較于傳統的cold-start-SFT->RL流程,作者更推崇直接在Base模型上進行RL。
1. 基于Base模型的RL的理論優勢
1.1 作者將PPO算法解釋為貝葉斯推理,并推導出殘差能量模型的形式。這使得問題轉化為如何高效地從最優分布中采樣。方法包括:使用帶參數的策略逼近最優分布(方法1,即傳統的RL方法及其變種);使用高效的MCMC采樣方法從最優分布中采樣(方法2)。方法1除了傳統的RL方法,還可以使用其他能量模型的參數估計方法。
1.2 過去基于SFT模型的RL效果不佳的原因在于Base模型的質量和RL搜索空間巨大,導致優化復雜度高。但隨著預訓練模型的改進(例如加入更多推理數據),在Base模型上進行zero-RL變得更可行且有效。
2. 基于Base模型的RL的實踐挑戰
2.1 LLM的RL與傳統RL不同,LLM產生響應并獲得獎勵的過程缺乏與環境的多步交互,更像是一個bandit問題。并且,LLM本身經過預訓練和微調,并非純粹的預訓練模型。
2.2 傳統RL的技巧在LLM上適用性存疑。許多傳統RL技巧是在隨機初始化模型上使用的,LLM的預訓練特性使得這些技巧的必要性降低。
2.3 除了RL,其他生成模型的優化方法和MCMC采樣也可能適用于LLM,同樣需要評估傳統技巧的適用性和必要性。
3. 基于Base模型的RL的實際指導意義
3.1 直接在Base模型上進行RL,相當于用帶參數的分布擬合最優分布。這為Base模型的優化提供了新方向:分析最優分布采樣樣本的模式和效果,修正Base模型的數據分布,提升數據分布覆蓋率,糾正模型的頑固特性。
3.2 基于Base模型RL得到的答案更貼合Base模型的分布特征,因此基于此數據集進行SFT,應該能得到更好的Instruction模型。
4. zero-RL的復現關鍵點
4.1 訓練穩定性:需要穩定訓練上千個步驟,而非僅僅幾個步驟。
4.2 獎勵和響應長度的同步增長:如果響應長度不增長,則會退化為傳統的短文本Instruction模型的RL,效果有限。
4.3 rule-verified的獎勵模型:使用rule-verified的PPO驗證至關重要。如果無法實現持續增長,則使用更復雜的獎勵模型(例如BT-RM)的優化將更加困難。
4.4 與現有模型的對比:在32B模型上達到與DeepSeek-R1技術報告中Qwen-25-32b-zero相當的效果,是一個可比的基線。
5. 實驗結果與結論
5.1 在7B-32B模型上的實驗表明,不同的RL算法差異不顯著,超參數調整(例如學習率、預熱步數)影響有限。
5.2 KL約束會限制模型的探索,在Base模型上的RL,早期探索更為重要。移除KL約束后,模型表現更好,reward和response長度同步增長。
5.3 Prompt模板對結果影響較大,不合適的模板可能訓練出類似Instruction風格的模型。
5.4 最樸素的方法(例如Reinforce)可能最有效。
6. 未來展望
6.1 結合環境交互的RL框架是一個重要的方向,但需要構建合適的環境。
6.2 其他生成模型的優化/采樣方法(例如EBM)也值得探索。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。