<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        200多行代碼,超低成本復現DeepSeek R1「Aha Moment」!復旦大學開源Simple-GRPO

        AIGC動態7個月前發布 智猩猩GenAI
        548 0 0

        用簡潔的代碼高效復現 R1-zero 的自發反思能力。

        200多行代碼,超低成本復現DeepSeek R1「Aha Moment」!復旦大學開源Simple-GRPO

        原標題:200多行代碼,超低成本復現DeepSeek R1「Aha Moment」!復旦大學開源Simple-GRPO
        文章來源:智猩猩GenAI
        內容字數:3901字

        復旦大學團隊高效復現R1-zero自發反思能力:Simple-GRPO項目詳解

        本文介紹了復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊最新研究成果:Simple-GRPO項目。該項目以簡潔的代碼高效復現了R1-zero的“頓悟時刻”(Aha Moment)——模型自發展現的自我反思和策略調整能力,并開源于Github (https://github.com/lsdefine/simple_GRPO)。

        1. 背景:R1-zero復現的挑戰

        DeepSeek論文中提出的R1-zero模型及其“頓悟時刻”引發了廣泛關注,許多研究者嘗試基于GRPO算法復現該能力。然而,現有復現項目存在代碼復雜、依賴性高、資源消耗大、可讀性和可維護性差等問題,阻礙了更廣泛的應用和研究。

        2. Simple-GRPO項目優勢

        Simple-GRPO項目有效解決了上述問題,其主要優勢在于:

        1. 代碼簡潔:整個GRPO算法實現僅需200多行代碼,依賴庫僅為deepspeed和torch,無需ray等復雜框架。
        2. 資源消耗低:通過模型解耦與分離,降低了算力需求。項目可在單張A800 (80G)和單張3090 (24G)顯卡上完成7B模型的訓練,顯著降低了訓練成本(作者經驗:單次實驗成本約合人民幣7.3元)。
        3. 高效訓練:在該配置下,模型訓練1小時即可出現“頓悟時刻”。Qwen2.5-3B訓練60步需12分34秒,Qwen2.5-7B訓練60步需16分40秒。

        3. 技術實現細節

        Simple-GRPO項目的主要技術細節包括:

        1. 參考模型分離:將參考模型解耦,允許其在不同的GPU上運行,避免了顯存浪費,使得在A800 (80G)上訓練7B模型成為可能。
        2. 核心損失計算:基于Hugging Face的trl庫實現損失計算。
        3. 訓練環境:在一張A800 (80G)上進行Zero-Stage 2優化,另一張A800 (80G)用于參考模型推理。也可使用一張A800和一張3090。

        4. 實驗結果

        實驗結果表明,使用Qwen2.5-3B和Qwen2.5-7B作為基礎模型,在GSM8K和Math混合數據集上訓練,模型的準確率和格式遵循能力均達到預期效果。Qwen2.5-3B的準確率在5步優化后穩定在60%以上,Qwen2.5-7B的準確率始終保持在90%以上。

        5. 未來改進方向

        該項目未來將著重改進以下方面:

        1. 解決組內答案同質性問題:改進獎勵函數,避免組內答案過于一致導致模型難以收斂。
        2. 解決長思維鏈顯存占用問題:通過拆分組別、減小批次大小或分階段處理長序列等方法,降低GPU內存開銷,提升訓練效率。

        總之,Simple-GRPO項目提供了一個簡潔高效的R1-zero復現方案,為研究者提供了更易于訪問和使用的工具,推動了對大模型“頓悟時刻”機制的理解和研究。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 精品无码一区二区三区亚洲桃色| 国产精品亚洲高清一区二区| 久久久久亚洲精品日久生情| 四虎国产成人永久精品免费| 久久99国产亚洲高清观看首页| a级毛片黄免费a级毛片| 久久久久亚洲AV综合波多野结衣| 七次郎成人免费线路视频| 综合久久久久久中文字幕亚洲国产国产综合一区首 | 亚洲天堂电影在线观看| 亚洲高清免费在线观看| 亚洲一区二区三区播放在线| 丁香花在线观看免费观看| 亚洲色无码专区一区| 免费观看四虎精品国产永久| 抽搐一进一出gif免费视频| 亚洲AV永久青草无码精品| 99久久久国产精品免费牛牛四川 | 国产亚洲精品va在线| 日韩插啊免费视频在线观看| 亚洲一级黄色大片| 国产一级淫片a免费播放口之| 无码的免费不卡毛片视频| 亚洲国产精品久久久天堂| www.黄色免费网站| 免费大片黄在线观看| 久久狠狠高潮亚洲精品| 四虎影视大全免费入口| 国产免费一区二区三区免费视频| 亚洲国产成人精品不卡青青草原| 毛片免费在线观看网站| 一区二区三区免费高清视频| 911精品国产亚洲日本美国韩国 | 久久久久国色AV免费观看性色| 黄网站色视频免费看无下截| 亚洲av无码不卡一区二区三区| 无码人妻久久一区二区三区免费丨| 免费一级特黄特色大片| 亚洲视频网站在线观看| 免费永久看黄在线观看app| 鲁大师在线影院免费观看|