長思維鏈模型(Long-CoT)對AI-Infra的啟發
原標題:DeepSeek R1等長思維鏈模型對AI-Infra的啟發
文章來源:智猩猩GenAI
內容字數:10760字
O1/O3/R1/Kimi 1.5模型對AI推理框架的挑戰
本文探討了O1/O3/R1/Kimi 1.5等大型語言模型(LLM)對AI推理框架和基礎設施帶來的挑戰。這些模型的一個共同特點是使用了長思維鏈(Long Chain-of-Thought,Long CoT)技術,顯著提升了推理能力,尤其在代碼和數學方面,但同時也增加了推理成本。
1. Long CoT技術路線
Long CoT技術通過生成更長的推理鏈來提升LLM的復雜推理能力。DeepSeek R1和Kimi 1.5的對比顯示,即使對于簡單的1+1=?,Long CoT模型也會產生冗長的中間推理過程,Kimi 1.5的思維鏈通常更長。
2. O1技術路線(猜測)
基于GPT-4的訓練過程,推測O1的訓練流程為:預訓練+CoT訓練(CoT SFT+RLHF)+后期訓練(SFT+RLHF)->推理(CoT+摘要)。CoT訓練是核心,需要補充CoT數據,這可以通過人工標注、模型蒸餾或人工合成實現。推理過程包含CoT生成和摘要兩個環節,目前尚不清楚這兩個環節是否由不同的模型完成。
文中討論了CoT生成過程中的兩種方法:Inference-time Scaling Law(通過增加推理時間/維度提升能力)和MCTS(蒙特卡羅樹搜索,能夠生成復雜的推理樣本,但成本高)。
在RLHF訓練策略方面,比較了ORM(Optimal Reward Model,僅對最終結果評分)和PRM(Preference Reward Model,對每個中間步驟評分)兩種方法。ORM數據需求低,PRM數據標注成本高但上限更高。文章還介紹了MATH-SHEPHERD的自動化數據標注方法。
最后,比較了PPO和GRPO兩種RLHF優化算法,GRPO在PPO基礎上優化了計算效率。
3. DeepSeek R1
DeepSeek R1基于DeepSeek V3,其技術報告詳細介紹了訓練細節和失敗嘗試。主要工作包括:DeepSeek-R1-Zero(僅基于RL實現長CoT);DeepSeek-R1(基于少量高質量CoT數據冷啟動,結合RL、SFT訓練);以及模型蒸餾,用于提升小模型的推理能力。
報告中還提到了失敗的嘗試,包括PRM和MCTS,主要由于數據標注成本高和搜索空間過大。
4. Kimi 1.5
Kimi 1.5也開源了技術方案,與DeepSeek R1思路類似,都拋棄了value model,采用多個采樣評估生成質量,并基于固定prompt-format指導CoT構造。其訓練過程包括預訓練、SFT、Long CoT SFT和RL四個部分。
Kimi 1.5的創新之處在于:RL數據生成策略(考慮多樣性、難度和可評估性);Long-CoT SFT prompt-format(包含Planning/Evaluation/Reflection/Exploration等認知過程);RL策略(無需顯式構建搜索樹);以及部署工程上的優化,如Partial Rollouts、長度懲罰和樣本采樣策略優化等。
5. AI INFRA的需求和挑戰
Long CoT模型對AI INFRA提出了新的挑戰,包括數據傳輸(CoT、KV、prompt、logits、checkpoints)、訓推加速(混合部署下的任務切換和異步執行)、數據生成(支持多樣化采樣策略)和評估(支持Code Sandbox等)。
6. 未來展望
未來的研究方向包括:長/短CoT的統一;投機推理的應用;更長文本的支持;以及異構/分離部署。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。