<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        AIGC動態4個月前發布 智猩猩GenAI
        584 0 0

        關于R1的論文發表一些看法~

        看DeepSeek R1的論文時,我突然想起了AlphaGo

        原標題:看DeepSeek R1的論文時,我突然想起了AlphaGo
        文章來源:智猩猩GenAI
        內容字數:4085字

        R1論文解讀:一種簡潔優雅的基于規則獎勵的強化學習方法

        本文對真中發表在知乎的R1論文解讀進行總結,該論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,用于提升大模型的推理能力。

        1. 基于規則的獎勵模型設計

        R1論文的核心亮點在于其基于規則的獎勵模型設計。作者拒絕使用基于模型的獎勵模型(PRM)和基于模型的優化目標(ORM),原因如下:

        1. 在一般推理中,明確界定細粒度的推理步驟比較困難。

        2. 判斷當前推理中間步驟是否正確非常困難,模型自動標注效果差強人意,人工標注難以擴展。

        3. PRM容易導致獎勵劫持問題,動態重訓獎勵模型資源開銷大。

        作者認為,雖然目前有很多方法可以提升PRM的可擴展性,但仍然存在幻覺問題,不如人工標注或LLM評判準確。因此,R1直接拋棄了基于模型的獎勵模型,體現了其魄力,也避免了獎勵劫持的風險。

        2. 模型訓練的多階段策略

        R1采用多階段訓練策略:

        1. R1 Zero階段:利用基礎模型+提示詞+基于規則的獎勵,直接進行基于梯度反向傳播的強化學習(GRPO),目標是提升做題準確率。此階段模型輸出不斷變長,開始學會反思,但推理過程難以理解。

        2. R1階段:利用R1 Zero生成的數據進行強化學習,篩選出推理過程正常的樣本,并混合一些非推理數據,對基礎模型進行監督微調(SFT),再進行強化學習,最終得到R1模型。

        作者認為,這種方法能夠直接在基礎模型上進行強化學習,是因為當前的大模型預訓練已經包含了SFT數據,模型越貼近預訓練,幻覺越少。模型在強化學習過程中自然產生反思,這可能是因為輸出變長后,模型會利用剩余的“額度”去檢查答案。作者指出,模型能力的“涌現”依賴于訓練數據的類型,強化學習能夠采樣出特定類型的響應,是值得進一步研究的課題。

        此外,論文使用了GRPO和K3 KL估計,避免了傳統KL loss的蒙特卡洛估計低效問題。

        3. 與AlphaGo的聯系

        作者將R1的訓練過程與AlphaGo到AlphaZero的演進過程進行了對比。AlphaGo先用模仿學習+強化學習訓練,再通過自我博弈產生AlphaZero。而R1則相反,先用強化學習訓練出R1 Zero,再利用其數據進行SFT+RL,最終得到R1。作者推測,DeepSeek可能先訓練了一個SFT+RL模型,再訓練出Zero,最后利用Zero數據訓練出最終模型。

        R1中GRPO多次采樣的做法也類似于AlphaGo的蒙特卡洛樹搜索(MCTS),但DeepSeek的探索最終失敗了。

        4. 總結與展望

        R1論文提出了一種簡潔優雅的基于規則獎勵的強化學習方法,為提升大模型推理能力提供了新的方向。作者最后提出一個疑問:這種方法能否在100B甚至更小的模型上奏效?這將是未來研究的重要方向。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费人成在线观看网站品爱网日本| 91禁漫免费进入| 日韩一级免费视频| 无人影院手机版在线观看免费| 色婷婷亚洲十月十月色天| 最近的2019免费中文字幕| 色噜噜AV亚洲色一区二区| 国产精品高清免费网站| 亚洲国模精品一区| 久久免费99精品国产自在现线| 国产gv天堂亚洲国产gv刚刚碰| 三上悠亚电影全集免费| 亚洲国产老鸭窝一区二区三区| 亚洲免费在线视频| 亚洲成A人片在线观看无码3D| 美女视频黄.免费网址| 亚洲午夜日韩高清一区| 国产乱妇高清无乱码免费| 精品亚洲永久免费精品| 最近2019年免费中文字幕高清| 亚洲第一页在线视频| 成年性生交大片免费看| 特级毛片aaaa级毛片免费| 国产国拍亚洲精品福利 | 久久亚洲精品无码gv| 免费一级国产生活片| 成人免费乱码大片A毛片| 亚洲成年轻人电影网站www| 丁香花免费完整高清观看| 欧美激情综合亚洲一二区| 国产精品亚洲精品日韩已方| 久久精品乱子伦免费| 国产99在线|亚洲| 亚洲AV无码一区二三区| 在线观看免费播放av片| 亚洲1区1区3区4区产品乱码芒果 | 亚洲精品国产字幕久久不卡| 一级毛片免费观看不卡视频 | 中文字幕在线观看亚洲日韩| 97公开免费视频| 亚洲精品av无码喷奶水糖心|