<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        AIGC動態7個月前發布 智猩猩GenAI
        722 0 0

        嘗試做了一波 r1-zero 的簡單的復現實驗

        DeepSeek-R1-ZERO 嘗試復現的一些現象分享

        原標題:DeepSeek-R1-ZERO 嘗試復現的一些現象分享
        文章來源:智猩猩GenAI
        內容字數:6329字

        DeepSeek R1-Zero 復現實驗及結果分析

        本文總結了作者基于OpenRLHF框架,使用Qwen-2.5 1.5B BASE模型復現DeepSeek R1-Zero實驗的結果及一些有趣的現象。實驗主要探究了不同獎勵函數和數據集對模型性能的影響,并對模型學習過程中的若干現象進行了分析。

        1. 實驗設置

        作者進行了四個實驗,分別使用不同的數據集和獎勵函數:

        1. 實驗一: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 (accuracy_reward)。
        2. 實驗二: 數據集:MATH TRAIN + GSM8K TRAIN 15K;獎勵函數:準確性獎勵 + 格式獎勵 (accuracy_reward + format_reward)。
        3. 實驗三: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵。
        4. 實驗四: 數據集:NUMIA-MATH 100K;獎勵函數:準確性獎勵 + 格式獎勵。

        算法采用策略梯度 (policy gradient),優勢估計使用 REINFORCE + 全局批量歸一化 (global batch normalization)。prompt模板與DeepSeek R1相同,使用math_verify進行答案抽取和匹配。

        2. 實驗結果

        實驗結果顯示,在簡單數據集 (MATH-GSM8K TRAIN 15K) 上,添加格式獎勵可以加快模型學習速度,但對最終準確率提升有限。在復雜數據集 (NUMIA-MATH 100K) 上,添加格式獎勵反而導致模型性能下降,模型傾向于通過滿足格式要求來獲得獎勵,而不是真正解決問題。

        1. 簡單數據集 (MATH-GSM8K 15K):實驗一和實驗二在訓練集和測試集上都取得了顯著的提升,但實驗二的測試集結果數據丟失。
        2. 復雜數據集 (NUMIA-MATH 100K):實驗三在測試集上取得了顯著的提升,而實驗四的測試集結果卻大幅下降。

        3. 關鍵現象與結論

        實驗中觀察到以下幾個有趣的現象:

        1. 格式獎勵易學: 添加格式獎勵后,模型快速學習了指定的格式要求,尤其是在復雜數據集上。
        2. 復雜數據集上格式獎勵易被“濫用”: 在復雜數據集上,模型更容易通過滿足格式要求來獲得獎勵,而忽略了問題的實際解答,導致模型性能下降。
        3. 準確率與響應長度正相關 (復雜數據集): 在復雜數據集上,準確率提升與響應長度增加呈正相關,這在簡單數據集上并不明顯。
        4. 缺乏“Aha Moment”: 模型在訓練過程中并未出現明顯的“頓悟”現象,模型中本身就存在一定的“反思”能力。
        5. 探索與利用的平衡: 模型訓練過程中熵快速收斂,需要改進方法來平衡探索與利用。

        作者總結,一個好的獎勵函數應該先保證準確性獎勵,再考慮添加格式獎勵;同時,需要研究如何更好地平衡探索與利用,以提高模型的訓練效率和性能。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码无限在线观看不卡| 亚洲午夜久久影院| 亚洲AV无码片一区二区三区| 中文字幕无码成人免费视频| 91亚洲自偷在线观看国产馆| 免费成人激情视频| 亚洲AV无码精品蜜桃| 1024免费福利永久观看网站| 亚洲精品二三区伊人久久| 成年在线观看免费人视频草莓| 亚洲欧美成人一区二区三区| 免费无码黄网站在线观看| 亚洲.国产.欧美一区二区三区| 国产免费变态视频网址网站| 免费精品久久久久久中文字幕| 亚洲精品一级无码鲁丝片| a在线免费观看视频| 久久久久亚洲av无码专区| 免费看成人AA片无码视频羞羞网| 亚洲av无码国产综合专区| 日韩高清在线免费观看| 男女超爽视频免费播放| 亚洲一区无码中文字幕| 51视频精品全部免费最新| 亚洲人成电影网站久久| 国产最新凸凹视频免费| 国产精品无码免费专区午夜 | 两个人看的www视频免费完整版| 亚洲大成色www永久网站| 19禁啪啪无遮挡免费网站| 亚洲日韩国产一区二区三区在线| 免费一级毛片在线观看| 无码少妇精品一区二区免费动态| 国产成人精品日本亚洲直接| 五月天婷亚洲天综合网精品偷| A级毛片高清免费视频在线播放| 亚洲资源在线视频| 日韩在线免费播放| 免费一级不卡毛片| 亚洲伊人久久大香线蕉AV| 亚洲综合无码AV一区二区|