本文主要介紹我們在弱teacher上蒸餾的經驗和在zero-rl的一些新的結果和思考。
智猩猩AI新青年講座:深度推理模型專題
本文總結了知乎文章“智猩猩AI新青年講座最新增設DeepSeek R1與推理模型專題”的主要內容,該文章探討了近期深度推理模型的突破性進展,特別是DeepSeek R1系列模型的優秀表現以及Zero-RL范式的革新。
1. DeepSeek R1及近期深度推理模型進展
近期,多個深度推理模型井噴式發布,包括DeepSeek-R1、Kimi1.5和Baichuan-M1等。DeepSeek R1系列通過蒸餾強Teacher模型到Qwen25全家桶,顯著提升了推理能力,且訓練成本僅需4500美元,1.5B的小模型推理能力超越了o1-preview。Zero系列則實現了范式轉移,省去了SFT階段,降低了人工數據標注成本。DeepSeek R1和Kimi1.5則采用傳統的pretrain→SFT→RL方法,在成本和效果上取得了平衡。值得注意的是,R1模型不僅理科能力強,創作能力也十分出色,引發了關于推理能力是否提升通用能力的關鍵因素的討論。
2. RedStar項目及深度推理蒸餾經驗
RedStar項目探討了深度推理數據規模、模型規模、難度等級以及多模態對推理能力的影響。研究表明,更高難度的數據能更顯著提升推理能力;模型規模越大越好;盲目增加數據量提升有限;中等尺寸的RL-scaling能進一步提升效果;僅使用code數據訓練也能提升math能力;深度推理模型在通用評測上的表現相對較好,但會影響指令遵循能力;多模態深度推理需要考慮視覺感知層面的深度推理。
3. DeepSeek-Zero帶來的啟發
DeepSeek-Zero的成功訓練帶來了新的想象空間。文章探討了如何從policy-gradient+kl-constraint的角度出發,得到最優分布,并通過MCMC采樣或RL方法獲取最優分布的樣本。與傳統的pretrain→SFT→RL流程相比,Zero-RL省去了SFT階段,能夠更好地優化base-model,提升RL-scale的效果和收斂效率。文章也提出了Zero-RL需要解決的關鍵問題,例如什么樣的基座模型適合Zero-RL,如何選擇RL算法等。
4. RL-Scaling的未來方向
文章展望了RL-scaling的三個階段:粗獷式RL、精細式RL和協同式RL。協同式RL將涉及多模態協同優化、混合范式協同訓練和系統級協同部署等技術。文章還強調了構建適用于LLM的Gym環境、難度分級的prompt以及已有數據的可驗證任務生成的重要性。
5. 總結
本文總結了深度推理模型的最新進展,重點介紹了DeepSeek R1和Zero-RL的突破性成果,并對未來深度推理模型的發展方向進行了展望。文章認為,推理能力的提升可能是提升通用能力的關鍵,而更強的Teacher模型能夠蒸餾出更強的Student模型。 同時,Zero-RL以及基于MCMC采樣的方法為優化base-model和提升RL-scale提供了新的思路。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。