Reasoning Model,RL is all your need !!!
原標題:從字節ReFT到DeepSeek R1,聊聊推理模型Reasoning Model的精巧實現
文章來源:智猩猩GenAI
內容字數:22978字
國產Reasoning Model復現:精巧簡潔的RL方案
本文總結了三篇關于Reasoning Model(推理模型)的優秀工作:字節的ReFT、Kimi的K1.5和DeepSeek的R1,它們的核心方法驚人地一致:在Post-Training階段通過強化學習(RL)來提升模型的推理能力。這展現了國產模型在復現OpenAI等公司成果上的精巧和簡潔。
1. 早期猜想與局限性
文章首先回顧了對OpenAI等公司Reasoning Model早期技術的猜想,主要集中在PRM(過程監督獎勵模型)和MCTS(蒙特卡洛樹搜索)方法。PRM通過分步驟打分來提供更精細的監督信號,MCTS則通過樹搜索來探索解空間。然而,PRM需要定義精細的執行步驟,且對數據質量要求高;MCTS則面臨搜索空間的問題,節點空間定義也十分困難。這些局限性導致實際復現中很少采用這些方法。
2. 三篇核心工作的比較
文章重點介紹了ReFT、K1.5和R1這三篇工作的核心思路。它們都采用了RL,但在具體實現上各有側重:
2.1 ReFT: 簡化PPO的RL方案
ReFT采用PPO算法,但簡化了Reward Model,使用Rule-Base RM(基于規則的獎勵模型)來判斷答案正確性,并通過參數共享來降低Critic Model的計算復雜度。此外,ReFT還對比了兩種Self-Training方法,展現了RL方案的優勢。
2.2 Kimi K1.5: 精細化的RL和采樣策略
Kimi K1.5在預訓練和監督微調后,采用了一種簡化的類Policy Gradient方法進行RL訓練,避免了Critic Model的計算。其Reward Model設計精細,針對不同問題和訓練階段有不同的策略。此外,Kimi還采用了課程采樣和優先采樣策略來提高訓練效率。
2.3 DeepSeek R1: 激進的純RL與多階段優化
DeepSeek R1首先進行了激進的純RL實驗(R1-Zero),但模型存在可讀性差等問題。因此,R1在R1-Zero基礎上,進行了多階段優化,包括SFT、RL、增強SFT和增強RL,最終提升了模型的通用性和推理能力。DeepSeek也使用了Rule-Based Reward Model,并增加了語言一致性獎勵。
3. 總結
文章總結指出,這三篇工作都通過RL在Post-Training階段有效提升了模型的推理能力,展現了國產模型在Reasoning Model復現上的成就。其方法精巧簡潔,通過清晰的目標設定和對RL的巧妙運用,實現了對復雜問題推理能力的有效提升。最終,文章以“Reasoning Model,RL is all you need”來概括其核心思想。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。