<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

        AIGC動態(tài)5個月前發(fā)布 量子位
        463 0 0

        復(fù)雜獎勵函數(shù)不是必要的

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

        原標(biāo)題:1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):2237字

        階躍星辰與清華聯(lián)合發(fā)布Open Reasoner Zero (ORZ):高效的開源大模型推理訓(xùn)練方法

        近日,國內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)手清華大學(xué),發(fā)布了名為Open Reasoner Zero (ORZ) 的全新開源大模型。該項目由沈向洋、姜大昕、張祥雨等AI領(lǐng)域知名學(xué)者和專家領(lǐng)銜,其高效的訓(xùn)練方法和令人矚目的結(jié)果,迅速引發(fā)了廣泛關(guān)注。

        1. 高效的訓(xùn)練方法:突破DeepSeek-R1-Zero的訓(xùn)練效率

        與DeepSeek-R1-Zero相比,ORZ在訓(xùn)練效率上取得了顯著突破。在響應(yīng)長度方面,ORZ僅需約17% 的訓(xùn)練步驟就能達(dá)到DeepSeek-R1-Zero 671B 的水平;在RL訓(xùn)練方法方面,ORZ僅需 1/30 的訓(xùn)練步驟就能達(dá)到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要歸功于ORZ采用的極簡主義訓(xùn)練方法:結(jié)合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規(guī)則的獎勵函數(shù),無需復(fù)雜的獎勵函數(shù)設(shè)計。

        2. “頓悟時刻”的發(fā)現(xiàn):訓(xùn)練過程中的涌現(xiàn)現(xiàn)象

        ORZ團(tuán)隊在訓(xùn)練過程中觀察到一個有趣的現(xiàn)象:在訓(xùn)練步驟約680步時,模型的訓(xùn)練獎勵值、反思能力和回答長度同時出現(xiàn)顯著提升,類似于DeepSeek-R1-Zero論文中描述的“頓悟時刻”(aha moment)。這種現(xiàn)象也類似于涌現(xiàn)行為,在以Qwen2.5-Base-7B為基礎(chǔ)模型的實驗中,所有基準(zhǔn)測試在某個時間點都會經(jīng)歷獎勵和響應(yīng)長度的突然增加。

        3. 穩(wěn)定的訓(xùn)練:無需KL正則化

        ORZ在訓(xùn)練過程中無需依賴任何基于KL散度的正則化技術(shù),便實現(xiàn)了穩(wěn)定的訓(xùn)練。這與RLHF和推理模型領(lǐng)域目前的認(rèn)知有所不同,為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了新的希望。

        4. 數(shù)據(jù)的重要性:大規(guī)模多樣化數(shù)據(jù)集是關(guān)鍵

        研究表明,數(shù)據(jù)數(shù)量和多樣性對ORZ的訓(xùn)練至關(guān)重要。在有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會導(dǎo)致性能快速達(dá)到平臺期,而精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測試集上都沒有飽和的跡象。在整個訓(xùn)練過程中,平均正確反思長度始終高于平均響應(yīng)長度。

        5. 優(yōu)異的性能:超越Qwen2.5 Instruct

        最終,ORZ模型在MMLU和MMLU_PRO基準(zhǔn)測試中,無需任何額外的指令調(diào)整即可超越Qwen2.5 Instruct。

        6. 完全開源:促進(jìn)社區(qū)協(xié)作

        ORZ項目已100% 開源,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文和模型,并采用寬松的MIT許可證,開源48小時內(nèi)已獲得700多個星標(biāo)。這將極大地促進(jìn)社區(qū)協(xié)作和模型的進(jìn)一步發(fā)展。

        總之,Open Reasoner Zero 的發(fā)布標(biāo)志著大模型訓(xùn)練方法的一次重要突破。其高效的訓(xùn)練方法、令人驚嘆的性能以及完全開源的特性,為大模型研究和應(yīng)用帶來了新的可能性,也為國內(nèi)大模型的發(fā)展貢獻(xiàn)了重要力量。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品乱码久久久久久蜜桃图片 | 亚洲综合精品香蕉久久网| 亚洲熟女精品中文字幕| 日韩av无码成人无码免费| 91亚洲性爱在线视频| 嫖丰满老熟妇AAAA片免费看| 亚洲性69影院在线观看| 在线观看日本免费a∨视频| 亚洲乱码无限2021芒果| 国产在线国偷精品产拍免费| 亚洲无人区码一二三码区别图片| 成年女人午夜毛片免费视频 | 免费精品久久久久久中文字幕| 免费va人成视频网站全| www成人免费观看网站| 亚洲自偷自偷偷色无码中文| 大地资源中文在线观看免费版| 亚洲成人中文字幕| 美女网站免费福利视频| 相泽南亚洲一区二区在线播放| 伊在人亚洲香蕉精品区麻豆| 中文精品人人永久免费| 99ri精品国产亚洲| 成人黄软件网18免费下载成人黄18免费视频 | 国产人成网在线播放VA免费| 国产亚洲成AV人片在线观黄桃| 无码免费一区二区三区免费播放| 亚洲最大黄色网址| 国产一级淫片视频免费看| 91精品成人免费国产| 亚洲图片中文字幕| 免费人成视频在线观看视频| 91免费在线视频| 久久精品国产亚洲AV久| 免费99热在线观看| 久久久久久国产精品免费免费男同| 最新亚洲卡一卡二卡三新区| 精品国产亚洲一区二区在线观看| 亚洲免费观看网站| 一级中文字幕乱码免费| 亚洲国产精品日韩在线观看|