谷歌發(fā)布West-of-N,利用合成數(shù)據(jù),顯著提升LLM獎(jiǎng)勵(lì)模型質(zhì)量 | 今日Arxiv最熱大模型論文
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:谷歌發(fā)布West-of-N,利用合成數(shù)據(jù),顯著提升LLM獎(jiǎng)勵(lì)模型質(zhì)量 | 今日Arxiv最熱大模型論文
關(guān)鍵字:解讀,模型,數(shù)據(jù),政策,人類
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9597字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 賽博馬良人類審核員 | 松果導(dǎo)語(yǔ):論文提出了一種新的通過(guò)生成合成偏好數(shù)據(jù)來(lái)提升獎(jiǎng)勵(lì)模型質(zhì)量的方法,引入了一種自我訓(xùn)練策略,通過(guò)篩選最優(yōu)和最差候選來(lái)生成偏好對(duì)。實(shí)驗(yàn)證明,這種方法可以提高任何獎(jiǎng)勵(lì)模型的性能,效果類似于添加同等量的人類偏好數(shù)據(jù)。這為改善人類反饋強(qiáng)化學(xué)習(xí)(RLHF)在語(yǔ)言模型對(duì)齊上提供了新的研究方向。
引言:人類反饋對(duì)語(yǔ)言模型的影響在人工智能領(lǐng)域,語(yǔ)言模型的發(fā)展已經(jīng)達(dá)到了令人矚目的水平,它們能夠生成流暢、連貫且在很多情況下幾乎無(wú)法與人類寫作有所區(qū)分的文本。然而,要使這些模型的輸出與人類的價(jià)值觀保持一致,就需要一種方法來(lái)引導(dǎo)它們產(chǎn)生更受人類歡迎和認(rèn)可的結(jié)果。這種方法通常是通過(guò)人類反饋來(lái)實(shí)現(xiàn)的,即通過(guò)從人類反饋中學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)的方式,來(lái)調(diào)整模型的響應(yīng)結(jié)果,使其更符合人類的偏好。
人類反饋在這個(gè)過(guò)程中扮演了至關(guān)重要的角色。它不僅涉及到收集數(shù)據(jù)的成本和時(shí)間,還包括如何準(zhǔn)確地建模人類的偏好。這些偏好是主觀的、復(fù)雜的,并且依賴于文本質(zhì)量。因此,如何有效地生成和利用這些數(shù)據(jù)
原文鏈接:谷歌發(fā)布West-of-N,利用合成數(shù)據(jù),顯著提升LLM獎(jiǎng)勵(lì)模型質(zhì)量 | 今日Arxiv最熱大模型論文
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI應(yīng)用開(kāi)發(fā)者、算法工程師和研究人員。一線作者均來(lái)自清北、國(guó)外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。