全面超越DPO:陳丹琦團(tuán)隊(duì)提出簡單偏好優(yōu)化SimPO,還煉出最強(qiáng)8B開源模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:全面超越DPO:陳丹琦團(tuán)隊(duì)提出簡單偏好優(yōu)化SimPO,還煉出最強(qiáng)8B開源模型
關(guān)鍵字:模型,差額,目標(biāo),長度,對數(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8475字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda為了將大型語言模型(LLM)與人類的價(jià)值和意圖對齊,學(xué)習(xí)人類反饋至關(guān)重要,這能確保它們是有用的、誠實(shí)的和無害的。在對齊 LLM 方面,一種有效的方法是根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。盡管經(jīng)典 RLHF 方法的結(jié)果很出色,但其多階段的過程依然帶來了一些優(yōu)化難題,其中涉及到訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,然后優(yōu)化一個(gè)策略模型來最大化該獎(jiǎng)勵(lì)。
近段時(shí)間已有一些研究者探索了更簡單的離線算法,其中之一便是直接偏好優(yōu)化(DPO)。DPO 是通過參數(shù)化 RLHF 中的獎(jiǎng)勵(lì)函數(shù)來直接根據(jù)偏好數(shù)據(jù)學(xué)習(xí)策略模型,這樣就無需顯式的獎(jiǎng)勵(lì)模型了。該方法簡單穩(wěn)定,已經(jīng)被廣泛用于實(shí)踐。
使用 DPO 時(shí),得到隱式獎(jiǎng)勵(lì)的方式是使用當(dāng)前策略模型和監(jiān)督式微調(diào)(SFT)模型之間的響應(yīng)似然比的對數(shù) 的對數(shù)比。但是,這種構(gòu)建獎(jiǎng)勵(lì)的方式并未與引導(dǎo)生成的指標(biāo)直接對齊,該指標(biāo)大約是策略模型所生成響應(yīng)的平均對數(shù)似然。訓(xùn)練和推理之間的這種差異可能導(dǎo)致性能不佳。
為此,弗吉尼亞大學(xué)的助理教授孟瑜與普林斯頓大學(xué)的在讀博士夏夢舟和助理教授陳丹琦三人共同提出了 SimPO—— 一種簡單卻有效的離線偏好優(yōu)化算法。論文標(biāo)題:Si
原文鏈接:全面超越DPO:陳丹琦團(tuán)隊(duì)提出簡單偏好優(yōu)化SimPO,還煉出最強(qiáng)8B開源模型
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺