<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek R1等長思維鏈模型對AI-Infra的啟發

        AIGC動態3個月前發布 智猩猩GenAI
        345 0 0

        長思維鏈模型(Long-CoT)對AI-Infra的啟發

        DeepSeek R1等長思維鏈模型對AI-Infra的啟發

        原標題:DeepSeek R1等長思維鏈模型對AI-Infra的啟發
        文章來源:智猩猩GenAI
        內容字數:10760字

        O1/O3/R1/Kimi 1.5模型對AI推理框架的挑戰

        本文探討了O1/O3/R1/Kimi 1.5等大型語言模型(LLM)對AI推理框架和基礎設施帶來的挑戰。這些模型的一個共同特點是使用了長思維鏈(Long Chain-of-Thought,Long CoT)技術,顯著提升了推理能力,尤其在代碼和數學方面,但同時也增加了推理成本。

        1. Long CoT技術路線

        Long CoT技術通過生成更長的推理鏈來提升LLM的復雜推理能力。DeepSeek R1和Kimi 1.5的對比顯示,即使對于簡單的1+1=?,Long CoT模型也會產生冗長的中間推理過程,Kimi 1.5的思維鏈通常更長。

        2. O1技術路線(猜測)

        基于GPT-4的訓練過程,推測O1的訓練流程為:預訓練+CoT訓練(CoT SFT+RLHF)+后期訓練(SFT+RLHF)->推理(CoT+摘要)。CoT訓練是核心,需要補充CoT數據,這可以通過人工標注、模型蒸餾或人工合成實現。推理過程包含CoT生成和摘要兩個環節,目前尚不清楚這兩個環節是否由不同的模型完成。

        文中討論了CoT生成過程中的兩種方法:Inference-time Scaling Law(通過增加推理時間/維度提升能力)和MCTS(蒙特卡羅樹搜索,能夠生成復雜的推理樣本,但成本高)。

        在RLHF訓練策略方面,比較了ORM(Optimal Reward Model,僅對最終結果評分)和PRM(Preference Reward Model,對每個中間步驟評分)兩種方法。ORM數據需求低,PRM數據標注成本高但上限更高。文章還介紹了MATH-SHEPHERD的自動化數據標注方法。

        最后,比較了PPO和GRPO兩種RLHF優化算法,GRPO在PPO基礎上優化了計算效率。

        3. DeepSeek R1

        DeepSeek R1基于DeepSeek V3,其技術報告詳細介紹了訓練細節和失敗嘗試。主要工作包括:DeepSeek-R1-Zero(僅基于RL實現長CoT);DeepSeek-R1(基于少量高質量CoT數據冷啟動,結合RL、SFT訓練);以及模型蒸餾,用于提升小模型的推理能力。

        報告中還提到了失敗的嘗試,包括PRM和MCTS,主要由于數據標注成本高和搜索空間過大。

        4. Kimi 1.5

        Kimi 1.5也開源了技術方案,與DeepSeek R1思路類似,都拋棄了value model,采用多個采樣評估生成質量,并基于固定prompt-format指導CoT構造。其訓練過程包括預訓練、SFT、Long CoT SFT和RL四個部分。

        Kimi 1.5的創新之處在于:RL數據生成策略(考慮多樣性、難度和可評估性);Long-CoT SFT prompt-format(包含Planning/Evaluation/Reflection/Exploration等認知過程);RL策略(無需顯式構建搜索樹);以及部署工程上的優化,如Partial Rollouts、長度懲罰和樣本采樣策略優化等。

        5. AI INFRA的需求和挑戰

        Long CoT模型對AI INFRA提出了新的挑戰,包括數據傳輸(CoT、KV、prompt、logits、checkpoints)、訓推加速(混合部署下的任務切換和異步執行)、數據生成(支持多樣化采樣策略)和評估(支持Code Sandbox等)。

        6. 未來展望

        未來的研究方向包括:長/短CoT的統一;投機推理的應用;更長文本的支持;以及異構/分離部署。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲人成综合在线播放| 亚洲AV无码乱码国产麻豆| 最近中文字幕大全免费视频 | 四虎成人免费影院网址| 亚洲校园春色小说| 黄色一级视频免费| 免费va人成视频网站全| 老外毛片免费视频播放| 浮力影院亚洲国产第一页| 亚洲一级毛片在线观| 久青草视频在线观看免费| 最近2019中文字幕mv免费看| 亚洲一卡2卡3卡4卡乱码 在线| 在线观看人成视频免费| 亚洲国产精品美女久久久久| 6080午夜一级毛片免费看| 亚洲人成电影青青在线播放| 免费无码不卡视频在线观看| 久久亚洲国产精品五月天| 理论片在线观看免费| 亚洲国产无套无码av电影| 一级毛片免费播放| 亚洲精品福利你懂| 国产精品黄页在线播放免费| 亚洲女人18毛片水真多| 午夜网站免费版在线观看| 偷自拍亚洲视频在线观看99| 亚洲色欲久久久综合网| 一二三四在线观看免费中文在线观看| 免费AA片少妇人AA片直播| 国产亚洲漂亮白嫩美女在线| 亚洲色婷婷六月亚洲婷婷6月| 亚洲黄色免费网址| 黄色a三级三级三级免费看| 亚洲成AV人片在线观看ww| 四虎国产精品免费久久| 中文字幕亚洲男人的天堂网络| 免费欧洲美女牲交视频| 久久精品电影免费动漫| 亚洲日韩国产欧美一区二区三区| 国产亚洲精品高清在线|