200多行代碼，超低成本復現DeepSeek R1「Aha Moment」！復旦大學開源Simple-GRPO

用簡潔的代碼高效復現 R1-zero 的自發反思能力。

原標題：200多行代碼，超低成本復現DeepSeek R1「Aha Moment」！復旦大學開源Simple-GRPO
文章來源：智猩猩GenAI
內容字數：3901字

復旦大學團隊高效復現R1-zero自發反思能力：Simple-GRPO項目詳解

本文介紹了復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊最新研究成果：Simple-GRPO項目。該項目以簡潔的代碼高效復現了R1-zero的“頓悟時刻”（Aha Moment）——模型自發展現的自我反思和策略調整能力，并開源于Github (https://github.com/lsdefine/simple_GRPO)。

1. 背景：R1-zero復現的挑戰

DeepSeek論文中提出的R1-zero模型及其“頓悟時刻”引發了廣泛關注，許多研究者嘗試基于GRPO算法復現該能力。然而，現有復現項目存在代碼復雜、依賴性高、資源消耗大、可讀性和可維護性差等問題，阻礙了更廣泛的應用和研究。

2. Simple-GRPO項目優勢

Simple-GRPO項目有效解決了上述問題，其主要優勢在于：

代碼簡潔：整個GRPO算法實現僅需200多行代碼，依賴庫僅為deepspeed和torch，無需ray等復雜框架。
資源消耗低：通過模型解耦與分離，降低了算力需求。項目可在單張A800 (80G)和單張3090 (24G)顯卡上完成7B模型的訓練，顯著降低了訓練成本（作者經驗：單次實驗成本約合人民幣7.3元）。
高效訓練：在該配置下，模型訓練1小時即可出現“頓悟時刻”。Qwen2.5-3B訓練60步需12分34秒，Qwen2.5-7B訓練60步需16分40秒。

3. 技術實現細節

Simple-GRPO項目的主要技術細節包括：

參考模型分離：將參考模型解耦，允許其在不同的GPU上運行，避免了顯存浪費，使得在A800 (80G)上訓練7B模型成為可能。
核心損失計算：基于Hugging Face的trl庫實現損失計算。
訓練環境：在一張A800 (80G)上進行Zero-Stage 2優化，另一張A800 (80G)用于參考模型推理。也可使用一張A800和一張3090。

4. 實驗結果

實驗結果表明，使用Qwen2.5-3B和Qwen2.5-7B作為基礎模型，在GSM8K和Math混合數據集上訓練，模型的準確率和格式遵循能力均達到預期效果。Qwen2.5-3B的準確率在5步優化后穩定在60%以上，Qwen2.5-7B的準確率始終保持在90%以上。

5. 未來改進方向

該項目未來將著重改進以下方面：

解決組內答案同質性問題：改進獎勵函數，避免組內答案過于一致導致模型難以收斂。
解決長思維鏈顯存占用問題：通過拆分組別、減小批次大小或分階段處理長序列等方法，降低GPU內存開銷，提升訓練效率。

總之，Simple-GRPO項目提供了一個簡潔高效的R1-zero復現方案，為研究者提供了更易于訪問和使用的工具，推動了對大模型“頓悟時刻”機制的理解和研究。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

200多行代碼，超低成本復現DeepSeek R1「Aha Moment」！復旦大學開源Simple-GRPO

用簡潔的代碼高效復現 R1-zero 的自發反思能力。

復旦大學團隊高效復現R1-zero自發反思能力：Simple-GRPO項目詳解

1. 背景：R1-zero復現的挑戰

2. Simple-GRPO項目優勢

3. 技術實現細節

4. 實驗結果

5. 未來改進方向

聯系作者

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

階躍同時開源視頻生成+實時語音模型，我愿稱之「多模態界的Deepseek」

相關文章

暫無評論

ChatGPT

玩虛擬模特？