Deepseek R1 Zero成功復現全過程記錄

Deepseek真是越來越強了。

原標題：Deepseek R1 Zero成功復現全過程記錄
文章來源：智猩猩GenAI
內容字數：6393字

基于規則的強化學習提升大型語言模型邏輯推理能力

本文介紹了一個利用強化學習 (RL) 提升大型語言模型 (LLM) 邏輯推理能力的項目。該項目使用 Qwen 7B 作為基座模型，通過三階段的基于規則的強化學習，顯著提高了模型在邏輯推理任務上的準確率，并涌現出一些令人驚喜的能力。

1. 項目成果

該項目成功地將 Qwen 7B 模型在邏輯推理任務上的準確率從 0.2 提升至 0.41，超越了 GPT-4 (準確率約 0.3)。更重要的是，模型在 RL 訓練后涌現出了一些高級推理能力，例如：遲疑、多路徑探索、回溯、階段性總結以及答案驗證等。此外，模型的平均回復長度也增加了約 50%。

2. 實驗設置

該項目使用了不到 2000 條人工合成的訓練數據，這些數據類似于“老實人和騙子”類型的益智題。為了避免獎勵黑客行為，獎勵函數僅由格式獎勵和答案獎勵兩部分組成。基座模型選擇 Qwen 7B，放棄了最初選擇的 Qwen-math-7B，因為后者指令跟隨能力較弱，且輸出風格難以控制。RL 算法采用 Reinforce，訓練批次大小為 8。

3. 三階段強化學習

該項目采用三階段 RL 訓練策略：

階段一：課程學習與格式遵循：使用簡單邏輯題進行預訓練，重點學習 “ 和 “ 標簽的格式。此階段模型快速學習了格式，準確率也得到提升。
階段二：高溫采樣與大量 rollout：使用更復雜的邏輯題進行訓練，并采用高溫采樣 (溫度約 1.2) 和大 rollout 來增加模型輸出的多樣性，探索更豐富的推理策略。此階段模型出現了一些有趣的“崩壞”現象，例如試圖在輸出答案后重新進入思考階段，但被格式獎勵懲罰。
階段三：漫長的退火采樣：逐步降低采樣溫度，模型輸出逐漸成熟，具備了遲疑、回溯、總結和驗證等高級推理能力。此階段模型收斂速度較慢。

4. 令人驚喜的發現

該項目中，模型出現了一些意想不到的現象：模型有時會混合使用中文和英文進行思考，最終答案仍為英文；模型的回復長度顯著增加，平均長度提升了約 50%。這些現象暗示了模型在推理過程中可能使用了人類難以理解的策略。

5. 未來工作

研究者計劃進一步探索模型輸出中語言混合現象的原因，以及模型內部的推理機制。此外，他們還計劃將該模型應用于其他邏輯推理任務，例如 GSM8K。

6. 總結

該項目通過三階段基于規則的強化學習，成功地提升了 Qwen 7B 模型的邏輯推理能力，并涌現出了一些高級推理能力。該項目的研究結果為 LLM 的邏輯推理能力提升提供了新的思路和方法。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # AI模型可復現性 # DeepSeekR1Zero復現 # 大型語言模型訓練復現 # 開源AI模型復現 # 強化學習算法復現

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Deepseek R1 Zero成功復現全過程記錄

Deepseek真是越來越強了。

基于規則的強化學習提升大型語言模型邏輯推理能力

1. 項目成果

2. 實驗設置

3. 三階段強化學習

4. 令人驚喜的發現

5. 未來工作

6. 總結

聯系作者

LLM時代，計算蛋白質科學進展如何？香港理工大學等發布系統性綜述

「鯰魚」DeepSeek 正在攪動上下游

相關文章

暫無評論

ChatGPT

玩虛擬模特？