無需訓(xùn)練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用
AIGC動態(tài)歡迎閱讀
原標(biāo)題:無需訓(xùn)練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用
關(guān)鍵字:準(zhǔn)則,模型,道德,基準(zhǔn),研究者
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7880字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著人工智能技術(shù)的發(fā)展,以 GPT-4 為代表的大語言模型依靠其強(qiáng)大的能力正在對社會產(chǎn)生深遠(yuǎn)的影響。與此同時,大模型本身的安全性問題也變得尤為重要。如何確保大語言模型可以和人類的價值、真實的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問題。之前的大多數(shù)對齊方法需要收集新數(shù)據(jù)重新訓(xùn)練模型,然而對訓(xùn)練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時耗力是對齊中的痛點(diǎn)。除此之外,待對齊的價值觀可能是動態(tài)變化的,這進(jìn)一步給大模型價值觀對齊帶來了挑戰(zhàn)。
有鑒于此,上海交通大學(xué)生成式人工智能實驗室 GAIR 迅速采取行動,推出了一種全新的價值對齊方法:OPO (On-the-fly Preference Optimization,實時偏好優(yōu)化)。OPO 無需訓(xùn)練即可實現(xiàn)實時動態(tài)對齊,而且因其即插即用的特性,適用于所有的開源與閉源大模型。研究者透過 OPO 實現(xiàn)了大模型對于法律與道德標(biāo)準(zhǔn)的對齊,展示了 OPO 的動態(tài)性以及優(yōu)越性。
相比于之前工作中的對齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢:
無需訓(xùn)練即可實現(xiàn)價值觀對齊;
舍棄獎
原文鏈接:無需訓(xùn)練實現(xiàn)價值觀實時動態(tài)對齊:上交開源價值觀對齊方法OPO,閉源與開源大模型均適用
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺