微調(diào)都不要了？3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊，提示工程師：全都回來了

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：微調(diào)都不要了？3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊，提示工程師：全都回來了

文章來源：機(jī)器之心

內(nèi)容字?jǐn)?shù)：8670字

內(nèi)容摘要：機(jī)器之心報(bào)道機(jī)器之心編輯部大模型的效果好不好，有時(shí)候?qū)R調(diào)優(yōu)很關(guān)鍵。但近來很多研究開始探索無微調(diào)的方法，艾倫人工智能研究所和華盛頓大學(xué)的研究者用「免調(diào)優(yōu)」對(duì)齊新方法超越了使用監(jiān)督調(diào)優(yōu)（SFT）和人類反饋強(qiáng)化學(xué)習(xí)（RLHF）的 LLM 性能。我們知道，僅在無監(jiān)督文本語料庫上預(yù)訓(xùn)練的基礎(chǔ)大語言模型（LLM）通常無法直接用作開源域的 AI 助手（如 ChatGPT）。因此，為了讓這些基礎(chǔ)的 LLM 成為有用且無害的 AI 助手，研究人員往往使用指令調(diào)優(yōu)和偏好學(xué)習(xí)對(duì)它們進(jìn)行微調(diào)。先來看下指令調(diào)優(yōu)的定義，它是一種監(jiān)督微調(diào)（SFT）過程，主要使用人工注釋或者從 GPT-4 等專有 LLM 中收集的數(shù)據(jù)。偏好學(xué)習(xí)則是一種典型的人類反饋強(qiáng)化學(xué)習(xí)（RLHF），它不斷地調(diào)優(yōu)監(jiān)督微調(diào)后的 LLM 以進(jìn)一步對(duì)齊人類偏好。基于調(diào)優(yōu)的對(duì)齊促使 LLM 顯著改進(jìn)，似乎釋放了令人印象深刻的能力，并表明廣泛的微調(diào)對(duì)構(gòu)建 A…

原文鏈接：點(diǎn)此閱讀原文：微調(diào)都不要了？3個(gè)樣本、1個(gè)提示搞定LLM對(duì)齊，提示工程師：全都回來了