<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        AIGC動態3個月前發布 智猩猩GenAI
        709 0 0

        嘗試做了一波 r1-zero 的簡單的復現實驗

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        原標題:DeepSeek-R1-ZERO 嘗試復現的一些現象分享
        文章來源:智猩猩GenAI
        內容字數:6329字

        DeepSeek R1-Zero 復現實驗及結果分析

        本文總結了作者基于OpenRLHF框架,使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響,并對模型學習過程中的若干現象進行了分析。

        1. 實驗設置

        作者進行了四個實驗,分別使用不同的數據集和獎勵函數:

        1. 實驗一: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 (accuracy_reward)。
        2. 實驗二: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
        3. 實驗三: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵。
        4. 實驗四: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵 + 格式獎勵。

        算法采用策略梯度 (policy gradient),優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同,使用math_verify進行答案抽取和匹配。

        2. 實驗結果

        實驗結果顯示,在簡單數據集 (MATH-GSM8K TRAIN 15K) 上,添加格式獎勵可以加快模型學習速度,但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上,添加格式獎勵反而導致模型性能下降,模型傾向于通過滿足格式要求來獲得獎勵,而不是真正解決問題。

        1. 簡單數據集 (MATH-GSM8K 15K):實驗一和實驗二在訓練集和測試集上都取得了顯著的提升,但實驗二的測試集結果數據丟失。
        2. 復雜數據集 (NUMIA-MATH 100K):實驗三在測試集上取得了顯著的提升,而實驗四的測試集結果卻大幅下降。

        3. 關鍵現象與結論

        實驗中觀察到以下幾個有趣的現象:

        1. 格式獎勵易學: 添加格式獎勵后,模型快速學習了指定的格式要求,尤其是在復雜數據集上。
        2. 復雜數據集上格式獎勵易被“濫用”: 在復雜數據集上,模型更容易通過滿足格式要求來獲得獎勵,而忽略了問題的實際解答,導致模型性能下降。
        3. 準確率與響應長度正相關 (復雜數據集): 在復雜數據集上,準確率提升與響應長度增加呈正相關,這在簡單數據集上并不明顯。
        4. 缺乏“Aha Moment”: 模型在訓練過程中并未出現明顯的“頓悟”現象,模型中本身就存在一定的“反思”能力。
        5. 探索與利用的平衡: 模型訓練過程中熵快速收斂,需要改進方法來平衡探索與利用。

        作者總結,一個好的獎勵函數應該先保證準確性獎勵,再考慮添加格式獎勵;同時,需要研究如何更好地平衡探索與利用,以提高模型的訓練效率和性能。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产免费人人看大香伊| 女人体1963午夜免费视频| 91九色老熟女免费资源站| 亚洲日韩一页精品发布| 一级毛片**免费看试看20分钟| 日韩精品电影一区亚洲| 免费人成动漫在线播放r18 | 亚洲精品在线免费观看视频| 亚洲av永久无码精品表情包| 国产啪精品视频网站免费尤物| 久久99国产亚洲高清观看首页 | 国产97视频人人做人人爱免费| 亚洲人成影院在线无码观看| 久久九九免费高清视频| 亚洲av综合色区| 59pao成国产成视频永久免费| 亚洲乱码一二三四五六区| 久久久久久久免费视频| 337p日本欧洲亚洲大胆人人 | 免费国产真实迷j在线观看| 亚洲AV噜噜一区二区三区| 免费永久国产在线视频| 国产国产人免费人成成免视频| 国产精品国产亚洲精品看不卡| 最近免费中文字幕大全高清大全1| 国产.亚洲.欧洲在线| 免费A级毛片在线播放不收费| 一级特级aaaa毛片免费观看 | kk4kk免费视频毛片| 精品国产_亚洲人成在线高清| 免费A级毛片无码视频| 亚洲熟女乱色一区二区三区| 亚洲 国产 图片| 91久久精品国产免费一区| 亚洲精品无码人妻无码| 亚洲中文字幕久久精品无码APP | 亚洲产国偷V产偷V自拍色戒| 大学生一级特黄的免费大片视频| 精品国产福利尤物免费| 亚洲人成网男女大片在线播放 | 亚洲Av无码乱码在线znlu|