<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DPO與PPO:揭開大語言模型對齊的未來之謎

        AIGC動態(tài)8個月前發(fā)布 智猩猩GenAI
        463 0 0

        作者認為DPO不能干掉PPO,至少現(xiàn)在還不能。

        DPO與PPO:揭開大語言模型對齊的未來之謎

        原標(biāo)題:DPO vs PPO:深度解讀誰是LLM Alignment的未來
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):4505字

        從 PPO 到 DPO 的推導(dǎo)與比較

        本文探討了 DPO(Direct Preference Optimization)與 PPO(Proximal Policy Optimization)在大語言模型(LLM)對齊中的應(yīng)用與比較。DPO 因其簡化的流程與較低的計算成本而受到關(guān)注,但它是否能真正取代 PPO 是一個值得深入探討的問題。

        1. PPO 的最優(yōu)策略形式

        PPO 的最優(yōu)策略在 KL 正則化約束下可以被表示為一個特定形式,其中包含分區(qū)函數(shù)用于歸一化。通過重參數(shù)化,DPO 隱式建模了獎勵函數(shù),試圖簡化這一過程。

        2. DPO 的潛在缺陷

        盡管 DPO 在某些學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出色,但它在實際應(yīng)用中仍存在若干缺陷:

        • Distribution Shift: DPO 假設(shè)參考分布能夠準(zhǔn)確捕捉偏好數(shù)據(jù)分布,但實際上二者常常存在偏移,可能導(dǎo)致模型在分布外數(shù)據(jù)上的表現(xiàn)不佳。
        • Reward Hacking Risk: DPO 的隱式建模可能引發(fā)額外的 reward hacking 問題,尤其在偏好數(shù)據(jù)不足時,可能誤判分布外樣本。
        • Lack of Partition Function: DPO 省略了分區(qū)函數(shù)的影響,這一假設(shè)在訓(xùn)練分布稀疏或偏移時可能不成立,導(dǎo)致優(yōu)化目標(biāo)偏差。

        3. 具體實例分析

        通過一個披薩店的實例,PPO 像一個嚴(yán)謹(jǐn)?shù)呐笥眩瑤椭脩糇龀鼋?jīng)過深思熟慮的選擇,而 DPO 則像一個隨意的朋友,可能會推薦一些不合理的選項,導(dǎo)致用戶后悔。PPO 的歸一化確保了概率分布的合理性,而 DPO 的簡化可能導(dǎo)致過高權(quán)重賦予稀有選項。

        總結(jié)

        綜上所述,盡管 DPO 具有一定的優(yōu)勢,但在當(dāng)前的技術(shù)背景下,PPO 仍然在許多方面表現(xiàn)得更加穩(wěn)健。因此,DPO 不能完全取代 PPO,尤其是在處理復(fù)雜的分布和偏好數(shù)據(jù)時。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品国自产拍AV| 日本免费一区二区三区最新| 亚洲国产成人久久精品99 | 又粗又硬又大又爽免费视频播放| 亚洲视频在线观看2018| 国产人成免费视频网站| 亚洲精品白色在线发布| 100000免费啪啪18免进| 亚洲不卡视频在线观看| 久久经典免费视频| 亚洲熟妇无码一区二区三区导航| 日韩精品成人无码专区免费| 亚洲日韩精品国产3区| 日韩免费高清视频网站| 性生大片视频免费观看一级| 亚洲国产精品嫩草影院久久 | 久久久久亚洲AV无码网站| 国产精品久久免费| 亚洲欧美综合精品成人导航| 国产gav成人免费播放视频| 永久免费观看黄网站| 亚洲国产另类久久久精品黑人| 午夜视频在线免费观看| 亚洲av乱码一区二区三区香蕉| 在线观看人成网站深夜免费| 免费高清A级毛片在线播放| 亚洲一区二区三区影院| 5g影院5g天天爽永久免费影院 | 十八禁的黄污污免费网站| 亚洲精品字幕在线观看| 最近高清中文字幕无吗免费看| 亚洲国产日韩a在线播放| 国产精品亚洲mnbav网站| 精品无码人妻一区二区免费蜜桃| 国产人成亚洲第一网站在线播放| 免费国产在线观看老王影院| 国产在线精品免费aaa片| 亚洲精品伊人久久久久| 亚洲综合精品网站在线观看| 99ee6热久久免费精品6| 成人亚洲国产精品久久|