<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        在Deepseek-R1-ZERO出現(xiàn)前,為何無(wú)人嘗試放棄微調(diào)對(duì)齊,通過(guò)強(qiáng)化學(xué)習(xí)生成思考鏈推理模型?

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 智猩猩GenAI
        295 0 0

        只能說(shuō)這就是時(shí)代的局限性。

        在Deepseek-R1-ZERO出現(xiàn)前,為何無(wú)人嘗試放棄微調(diào)對(duì)齊,通過(guò)強(qiáng)化學(xué)習(xí)生成思考鏈推理模型?

        原標(biāo)題:在Deepseek-R1-ZERO出現(xiàn)前,為何無(wú)人嘗試放棄微調(diào)對(duì)齊,通過(guò)強(qiáng)化學(xué)習(xí)生成思考鏈推理模型?
        文章來(lái)源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):1531字

        DeepSeek-R1-ZERO之前,為何鮮少有人嘗試放棄微調(diào)對(duì)齊,直接用強(qiáng)化學(xué)習(xí)生成思考鏈推理模型?

        本文總結(jié)了知乎用戶(hù)FURUF對(duì)DeepSeek-R1-ZERO出現(xiàn)前,強(qiáng)化學(xué)習(xí)在生成思考鏈推理模型應(yīng)用稀少原因的分析。主要觀點(diǎn)歸納如下:

        1. Let’s Verify Step by Step論文的影響

        1.1 OpenAI的Let’s Verify Step by Step論文對(duì)后續(xù)研究方向產(chǎn)生了重大影響。該論文通過(guò)大量實(shí)驗(yàn)比較了PRM(Prompt-based Reasoning Methods)和ORM(Output-based Reasoning Methods)兩種方法的優(yōu)劣,得出PRM顯著優(yōu)于ORM,且PRM具有更強(qiáng)的分布外泛化能力的結(jié)論。

        1.2 該結(jié)論引導(dǎo)了大量后續(xù)研究都基于PRM展開(kāi),忽視了ORM在強(qiáng)化學(xué)習(xí)中的潛在優(yōu)勢(shì)。實(shí)際上,在使用強(qiáng)化學(xué)習(xí)時(shí),ORM由于更難被reward hacking,反而更有效。

        1.3 作者認(rèn)為,這篇論文及其相關(guān)工作將研究思路帶偏向了PRM,阻礙了對(duì)ORM在強(qiáng)化學(xué)習(xí)中應(yīng)用的探索。

        2. 基礎(chǔ)模型性能的不足

        2.1 許多研究人員很早就嘗試將強(qiáng)化學(xué)習(xí)應(yīng)用于大型語(yǔ)言模型 (LLM),但由于當(dāng)時(shí)的基礎(chǔ)模型性能不足而失敗。

        2.2 早期的實(shí)驗(yàn)主要使用GPT-2、Llama-2等模型,這些模型的推理能力相對(duì)較弱,即使嘗試各種強(qiáng)化學(xué)習(xí)算法,效果也不理想。

        2.3 作者指出,這并非方法本身的問(wèn)題,而是基礎(chǔ)模型質(zhì)量的限制。只有在Qwen-2.5-MATH等推理能力經(jīng)過(guò)強(qiáng)化的“小鋼炮”模型出現(xiàn)后,才有可能成功復(fù)現(xiàn)R1的結(jié)果。

        2.4 這些“小鋼炮”模型在各種推理基準(zhǔn)測(cè)試上的分?jǐn)?shù),遠(yuǎn)高于早期實(shí)驗(yàn)中使用的模型,從而突破了技術(shù)瓶頸。

        3. 總結(jié)

        3.1 DeepSeek-R1-ZERO出現(xiàn)前,強(qiáng)化學(xué)習(xí)在生成思考鏈推理模型應(yīng)用較少,主要原因在于Let’s Verify Step by Step論文的影響以及當(dāng)時(shí)基礎(chǔ)模型性能的不足。

        3.2 Let’s Verify Step by Step論文將研究方向?qū)騊RM,而忽視了ORM在強(qiáng)化學(xué)習(xí)中的優(yōu)勢(shì);同時(shí),早期LLM的推理能力有限,使得基于強(qiáng)化學(xué)習(xí)的方法難以取得突破。

        3.3 只有在擁有足夠強(qiáng)大的基礎(chǔ)模型后,結(jié)合合適的強(qiáng)化學(xué)習(xí)算法,才能成功生成高質(zhì)量的思考鏈推理模型,例如DeepSeek-R1-ZERO。

        3.4 這體現(xiàn)了技術(shù)發(fā)展的階段性,以及基礎(chǔ)模型性能對(duì)于算法突破的重要性。“朽木不可雕也”恰當(dāng)?shù)乜偨Y(jié)了當(dāng)時(shí)的研究困境。


        聯(lián)系作者

        文章來(lái)源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專(zhuān)注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲国产精品美女久久久久| 国产V亚洲V天堂无码| 亚洲一卡2卡3卡4卡乱码 在线| 久久99热精品免费观看动漫| 亚洲成A人片777777| 免费观看91视频| 亚洲日本在线观看| 一级特黄aa毛片免费观看| 亚洲天堂视频在线观看| 131美女爱做免费毛片| 亚洲国产精品美女| 国产成人A在线观看视频免费| 最新国产精品亚洲| 国产女高清在线看免费观看| 男女交性无遮挡免费视频| 久久国产成人精品国产成人亚洲| 免费一级特黄特色大片| 亚洲精品成人网站在线观看| 日韩电影免费在线观看中文字幕| 91亚洲国产在人线播放午夜| 91情侣在线精品国产免费| 青青青亚洲精品国产| 亚洲香蕉成人AV网站在线观看| 久久青草精品38国产免费| 亚洲a视频在线观看| 国产成人综合久久精品免费| 中国一级全黄的免费观看| 亚洲av网址在线观看| 成年人免费的视频| 337P日本欧洲亚洲大胆艺术图 | 亚洲风情亚Aⅴ在线发布| 亚洲日韩在线中文字幕第一页| 午夜精品射精入后重之免费观看 | 最近中文字幕免费mv在线视频| 成人区精品一区二区不卡亚洲| 国产免费观看黄AV片| 日本高清高色视频免费| 亚洲人成人无码.www石榴| 国产亚洲欧洲Aⅴ综合一区 | 手机永久免费的AV在线电影网| 亚洲AV无码久久寂寞少妇|