<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        探索強化微調RFT:PPO驅動的新應用

        AIGC動態(tài)7個月前發(fā)布 智猩猩GenAI
        215 0 0

        希望大家不要再感慨 SFT 沒價值了,也別感慨 RFT 真牛啊,完全追不上 OpenAI 之類的話,感慨無用。

        探索強化微調RFT:PPO驅動的新應用革命

        原標題:聊聊對強化微調RFT的理解及看法:PPO 下的新應用范式
        文章來源:智猩猩GenAI
        內容字數(shù):3953字

        RFT的理解與應用

        在即將到來的智猩猩AI新青年講座中,清華大學在讀博士生李镕輝將分享關于《音樂驅動的高質量長序列舞蹈生成》的主題。此外,本文將探討對RFT(Reinforcement Fine-Tuning)的理解,基于OpenAI的直播及相關論文進行分析。

        1. RFT的定義

        RFT可以被理解為在給定prompt的基礎上,生成包含cot(chain of thought)的response,并通過一個verifier判斷其正確性,從而指導模型進行參數(shù)更新。與傳統(tǒng)的PPO(Proximal Policy Optimization)相比,RFT的關鍵創(chuàng)新在于使用rule-based reward_model作為返回信號。

        2. RFT的價值

        RFT的主要價值在于其能夠針對特定復雜任務創(chuàng)建專家模型。通過定制任務的verifier,RFT可以用更少的數(shù)據(jù),甚至是十分之一的數(shù)據(jù),輕松超越傳統(tǒng)SFT(Supervised Fine-Tuning)的結果。RFT特別適合于法律、保險、醫(yī)療等領域,這些領域通常有明確的“正確答案”。

        3. 字節(jié)的ReFT

        字節(jié)的ReFT可以被視為OpenAI RFT在數(shù)學任務上的簡化實現(xiàn)。ReFT的過程包括通過SFT獲得模型,生成帶cot的response,并根據(jù)答案的正確性進行評分和模型更新。盡管ReFT的創(chuàng)新看似平常,但其在o1之前的發(fā)表為其增添了價值。

        4. RFT的影響

        對于像字節(jié)這樣的算力大廠,RFT可以幫助其提升服務能力,因此需要緊跟這一技術發(fā)展。而對于普通從業(yè)者而言,短期內不會有太大變化,仍需進行SFT訓練。但長遠來看,需關注PPO的重要性,并調整學習方向。

        5. 結語

        希望大家對SFT的價值有新的認識,RFT雖是新技術,但并不意味著SFT失去意義。對RFT感興趣的讀者可以通過OpenRLHF代碼進行實踐,深入理解這一新興技術。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一区影音先锋色资源| 自拍偷自拍亚洲精品第1页 | 亚洲日本在线免费观看| 亚洲精品国产品国语在线 | 美女在线视频观看影院免费天天看| 亚洲精品在线视频| 免费又黄又爽又猛大片午夜| 免费人成激情视频| 亚洲一级片免费看| 国产亚洲高清不卡在线观看| 美女视频黄的免费视频网页| 7777久久亚洲中文字幕蜜桃| av无码免费一区二区三区| 亚洲偷偷自拍高清| 国产精品成人免费综合| 一区二区视频免费观看| 亚洲国产精品VA在线观看麻豆 | JLZZJLZZ亚洲乱熟无码| a毛看片免费观看视频| 色噜噜综合亚洲av中文无码| 香蕉97超级碰碰碰免费公| 亚洲AV无码一区二区三区久久精品| 又粗又大又硬又爽的免费视频| 免费无码国产V片在线观看| 亚洲国产精品无码专区影院 | 免费无码又爽又刺激毛片| 日韩精品免费一线在线观看| 亚洲精品卡2卡3卡4卡5卡区| 国产精品爱啪在线线免费观看| 亚洲精品无码久久久久YW| 亚洲午夜精品久久久久久人妖| 无码少妇精品一区二区免费动态| 伊人久久精品亚洲午夜| a级毛片免费完整视频| 2019中文字幕免费电影在线播放| 春意影院午夜爽爽爽免费| 日本免费人成黄页在线观看视频| 国产精品福利片免费看| 亚洲乱码一二三四五六区| 免费一级毛片在级播放| 香蕉免费一区二区三区|