人類偏好優(yōu)化算法哪家強(qiáng)?跟著高手一文學(xué)懂DPO、IPO和KTO
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:人類偏好優(yōu)化算法哪家強(qiáng)?跟著高手一文學(xué)懂DPO、IPO和KTO
關(guān)鍵字:模型,數(shù)據(jù),作者,算法,參數(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10766字
內(nèi)容摘要:
選自 huggingface.co/blog
作者:Kashif Rasul 等
機(jī)器之心編譯
編輯:趙陽?盡管收集人類對(duì)模型生成內(nèi)容的相對(duì)質(zhì)量的標(biāo)簽,并通過強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)來微調(diào)無監(jiān)督大語言模型,使其符合這些偏好的方法極大地推動(dòng)了對(duì)話式人工智能的發(fā)展。但由于 RLHF 是一個(gè)復(fù)雜且常常不穩(wěn)定的過程,關(guān)于直接使用優(yōu)化函數(shù)將人類的偏好和模型的結(jié)果進(jìn)行對(duì)齊的研究成為時(shí)下的熱點(diǎn)問題。本文是 hugging face 上的一篇博客,針對(duì)時(shí)下常見的三種人類偏好優(yōu)化算法進(jìn)行了性能比較。作者進(jìn)行了大量的實(shí)驗(yàn),旨在通過不同的模型和不同的超參數(shù),對(duì)無需強(qiáng)化學(xué)習(xí)(或偏好調(diào)整)就能調(diào)整語言模型的三種可行方法進(jìn)行評(píng)估。這三種優(yōu)化方法是:
直接偏好優(yōu)化 (Direct Preference Optimization, DPO)(https://huggingface.co/papers/2305.18290)
身份偏好優(yōu)化 (Identity Preference Optimisation, IPO)(https://huggingface.co/papers/2310.12036)
Kahnem
原文鏈接:人類偏好優(yōu)化算法哪家強(qiáng)?跟著高手一文學(xué)懂DPO、IPO和KTO
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)