用RLHF 2%的算力讓LLM停止有害輸出,字節(jié)提出LLM遺忘學(xué)習(xí)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:用RLHF 2%的算力讓LLM停止有害輸出,字節(jié)提出LLM遺忘學(xué)習(xí)
關(guān)鍵字:侵權(quán),樣本,政策,字節(jié)跳動,報告
文章來源:機器之心
內(nèi)容字?jǐn)?shù):5422字
內(nèi)容摘要:機器之心專欄機器之心編輯部如何讓LLM “忘記” 學(xué)到的有害內(nèi)容?隨著大型語言模型(LLM)的發(fā)展,從業(yè)者面臨更多挑戰(zhàn)。如何避免 LLM 產(chǎn)生有害回復(fù)?如何快速刪除訓(xùn)練數(shù)據(jù)中的版權(quán)保護(hù)內(nèi)容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數(shù)據(jù)政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規(guī)要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關(guān)重要。目前業(yè)界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數(shù)據(jù)(正樣本和負(fù)樣本)用強化學(xué)習(xí)的方式來對 LLM 進(jìn)行微調(diào) (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預(yù)期和價值觀。但對齊過程往往受到 (1) 數(shù)據(jù)收集;(2) 計算資源的限制。字節(jié)跳動提出讓 L…
原文鏈接:點此閱讀原文:用RLHF 2%的算力讓LLM停止有害輸出,字節(jié)提出LLM遺忘學(xué)習(xí)
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺