DeepSeek-R1的訓練方法為LLM的訓練帶來了新變革。
原標題:DeepSeek-R1 論文帶來的 LLM 全新思維
文章來源:智猩猩GenAI
內容字數:5077字
DeepSeek-R1: 顛覆LLM訓練的新思路
本文總結了知乎文章中關于DeepSeek-R1論文的解讀,該論文提出了一種利用強化學習 (RL) 來訓練大型語言模型 (LLM) 的新方法,顯著減少了對監督微調 (SFT) 的依賴,并實現了推理時間伸縮 (Inference Time Scaling)。
1. RL與推理時間伸縮的融合
DeepSeek-R1的核心創新在于將RL作為核心訓練方法,而非簡單的補充。通過精心設計的獎勵模型和訓練流程,模型能夠自主學習長鏈推理和自我反思能力,這些能力并非通過人工標注數據強行灌輸,而是在RL訓練過程中自然涌現。這使得推理時間伸縮不再是的過程,而是RL訓練的自然結果。模型根據問題的難度自動調整推理深度和廣度,直接實現Inference Time Scaling,這暗示著達到“o1能力”可能比我們預想的更容易。
2. 簡單有效的規則獎勵模型
DeepSeek-R1采用基于規則的獎勵模型,而非復雜的神經網絡。這種方法避免了神經網絡獎勵模型容易出現的“獎勵作弊”問題,并且訓練效率高、資源消耗低。規則的明確性和可解釋性也方便了調整和優化評估標準。
3. SFT的巧妙運用
DeepSeek-R1的訓練分為兩個階段:第一階段先用少量高質量數據進行SFT,為模型建立基本的推理能力;然后進行第一輪reasoning-focused RL,提升模型在特定任務上的推理能力。第二階段則利用第一階段訓練好的模型生成新的SFT數據,解決模型輸出的可讀性和語言融合問題,并進一步豐富推理模式,再進行第二輪RL,提升模型的幫助性和無害性。SFT在這里扮演“基礎訓練”的角色,為后續RL訓練奠定基礎,而非每個RL步驟都需重復進行。
4. 動態生成和混合數據
在RL訓練接近收斂時,DeepSeek-R1利用當前模型生成高質量數據,并與原始監督數據混合,增加數據多樣性,讓模型學習自身生成的高質量例子。
5. 對LLM訓練的新認識
DeepSeek-R1的成果顛覆了以往對LLM訓練的認知:
- RL與推理能力的關系:合適的RL設置能夠讓模型自主學習推理和反思,減少對大量人工標注數據的依賴。
- 數據質量與數據動態性:數據質量和動態性可能比數據量更重要。動態生成和篩選高質量數據能以較少的數據量取得良好效果。
- 模型的自我進化能力:模型在訓練過程中能夠自主學習更長的推理過程和自我反思能力,展現出巨大的潛力。
6. 規則獎勵模型的具體設計
規則獎勵模型通過一套評分標準對模型輸出進行評估,包括準確性、格式規范性、推理過程合理性等方面。通過優化不同規則的權重,可以更好地平衡不同規則之間的獎勵,提高模型性能。具體的規則包括準確性獎勵(例如,在數學問題中驗證答案正確性)和格式獎勵(例如,規范模型輸出的格式,例如使用<think>和<answer>標簽)。
7. 總結
DeepSeek-R1的訓練方法為LLM訓練帶來了新的變革,通過巧妙地結合RL、規則獎勵模型和動態數據生成,顯著提高了訓練效率,降低了對資源的依賴,為LLM訓練提供了新的思路和方法,并可能大幅降低訓練成本,讓更多人參與模型訓練。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。