<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Deepseek R1 Zero成功復(fù)現(xiàn)全過程記錄

        AIGC動態(tài)7個月前發(fā)布 智猩猩GenAI
        334 0 0

        Deepseek真是越來越強(qiáng)了。

        Deepseek R1 Zero成功復(fù)現(xiàn)全過程記錄

        原標(biāo)題:Deepseek R1 Zero成功復(fù)現(xiàn)全過程記錄
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):6393字

        基于規(guī)則的強(qiáng)化學(xué)習(xí)提升大型語言模型邏輯推理能力

        本文介紹了一個利用強(qiáng)化學(xué)習(xí) (RL) 提升大型語言模型 (LLM) 邏輯推理能力的項目。該項目使用 Qwen 7B 作為基座模型,通過三階段的基于規(guī)則的強(qiáng)化學(xué)習(xí),顯著提高了模型在邏輯推理任務(wù)上的準(zhǔn)確率,并涌現(xiàn)出一些令人驚喜的能力。

        1. 項目成果

        該項目成功地將 Qwen 7B 模型在邏輯推理任務(wù)上的準(zhǔn)確率從 0.2 提升至 0.41,超越了 GPT-4 (準(zhǔn)確率約 0.3)。更重要的是,模型在 RL 訓(xùn)練后涌現(xiàn)出了一些高級推理能力,例如:遲疑、多路徑探索、回溯、階段性總結(jié)以及答案驗(yàn)證等。此外,模型的平均回復(fù)長度也增加了約 50%。

        2. 實(shí)驗(yàn)設(shè)置

        該項目使用了不到 2000 條人工合成的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)類似于“老實(shí)人和騙子”類型的益智題。為了避免獎勵黑客行為,獎勵函數(shù)僅由格式獎勵和答案獎勵兩部分組成。基座模型選擇 Qwen 7B,放棄了最初選擇的 Qwen-math-7B,因?yàn)楹笳咧噶罡S能力較弱,且輸出風(fēng)格難以控制。RL 算法采用 Reinforce,訓(xùn)練批次大小為 8。

        3. 三階段強(qiáng)化學(xué)習(xí)

        該項目采用三階段 RL 訓(xùn)練策略:

        1. 階段一:課程學(xué)習(xí)與格式遵循:使用簡單邏輯題進(jìn)行預(yù)訓(xùn)練,重點(diǎn)學(xué)習(xí) “ 和 “ 標(biāo)簽的格式。此階段模型快速學(xué)習(xí)了格式,準(zhǔn)確率也得到提升。
        2. 階段二:高溫采樣與大量 rollout:使用更復(fù)雜的邏輯題進(jìn)行訓(xùn)練,并采用高溫采樣 (溫度約 1.2) 和大 rollout 來增加模型輸出的多樣性,探索更豐富的推理策略。此階段模型出現(xiàn)了一些有趣的“崩壞”現(xiàn)象,例如試圖在輸出答案后重新進(jìn)入思考階段,但被格式獎勵懲罰。
        3. 階段三:漫長的退火采樣:逐步降低采樣溫度,模型輸出逐漸成熟,具備了遲疑、回溯、總結(jié)和驗(yàn)證等高級推理能力。此階段模型收斂速度較慢。

        4. 令人驚喜的發(fā)現(xiàn)

        該項目中,模型出現(xiàn)了一些意想不到的現(xiàn)象:模型有時會混合使用中文和英文進(jìn)行思考,最終答案仍為英文;模型的回復(fù)長度顯著增加,平均長度提升了約 50%。這些現(xiàn)象暗示了模型在推理過程中可能使用了人類難以理解的策略。

        5. 未來工作

        研究者計劃進(jìn)一步探索模型輸出中語言混合現(xiàn)象的原因,以及模型內(nèi)部的推理機(jī)制。此外,他們還計劃將該模型應(yīng)用于其他邏輯推理任務(wù),例如 GSM8K。

        6. 總結(jié)

        該項目通過三階段基于規(guī)則的強(qiáng)化學(xué)習(xí),成功地提升了 Qwen 7B 模型的邏輯推理能力,并涌現(xiàn)出了一些高級推理能力。該項目的研究結(jié)果為 LLM 的邏輯推理能力提升提供了新的思路和方法。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久精品国产精品亚洲色婷婷| 亚洲精品色在线网站| 精品亚洲AV无码一区二区三区| 亚洲人配人种jizz| 四虎影视久久久免费| 13小箩利洗澡无码视频网站免费| 99re热精品视频国产免费| 成人女人A级毛片免费软件| yy6080亚洲一级理论| 久久亚洲高清观看| 久久夜色精品国产噜噜亚洲a| 污网站在线免费观看| 无码囯产精品一区二区免费| 妞干网手机免费视频| 国产日产亚洲系列| 亚洲国产最大av| 91在线视频免费观看| 四色在线精品免费观看| 亚洲av午夜福利精品一区人妖| www.亚洲日本| 日韩免费高清播放器| 成人免费无码大片a毛片软件| 中文字幕久久亚洲一区 | 亚洲Aⅴ无码一区二区二三区软件| 亚洲精品无码AV人在线播放| 77777午夜亚洲| 无码日韩精品一区二区三区免费 | 亚洲中文字幕视频国产| 亚洲天天在线日亚洲洲精| 亚洲成a人片在线不卡一二三区| 中文字幕乱码一区二区免费| 精品无码国产污污污免费| 亚洲国产综合专区在线电影| 西西人体大胆免费视频| 精品久久8x国产免费观看| 久久精品国产亚洲Aⅴ香蕉| 爱情岛亚洲论坛在线观看 | 欧洲精品免费一区二区三区| 亚洲午夜久久影院| 久久久免费观成人影院| 情侣视频精品免费的国产|