無(wú)需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊:上交開(kāi)源價(jià)值觀對(duì)齊方法OPO,閉源與開(kāi)源大模型均適用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:無(wú)需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊:上交開(kāi)源價(jià)值觀對(duì)齊方法OPO,閉源與開(kāi)源大模型均適用
關(guān)鍵字:準(zhǔn)則,模型,道德,基準(zhǔn),研究者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7880字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部隨著人工智能技術(shù)的發(fā)展,以 GPT-4 為代表的大語(yǔ)言模型依靠其強(qiáng)大的能力正在對(duì)社會(huì)產(chǎn)生深遠(yuǎn)的影響。與此同時(shí),大模型本身的安全性問(wèn)題也變得尤為重要。如何確保大語(yǔ)言模型可以和人類(lèi)的價(jià)值、真實(shí)的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問(wèn)題。之前的大多數(shù)對(duì)齊方法需要收集新數(shù)據(jù)重新訓(xùn)練模型,然而對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時(shí)耗力是對(duì)齊中的痛點(diǎn)。除此之外,待對(duì)齊的價(jià)值觀可能是動(dòng)態(tài)變化的,這進(jìn)一步給大模型價(jià)值觀對(duì)齊帶來(lái)了挑戰(zhàn)。
有鑒于此,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 GAIR 迅速采取行動(dòng),推出了一種全新的價(jià)值對(duì)齊方法:OPO (On-the-fly Preference Optimization,實(shí)時(shí)偏好優(yōu)化)。OPO 無(wú)需訓(xùn)練即可實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)對(duì)齊,而且因其即插即用的特性,適用于所有的開(kāi)源與閉源大模型。研究者透過(guò) OPO 實(shí)現(xiàn)了大模型對(duì)于法律與道德標(biāo)準(zhǔn)的對(duì)齊,展示了 OPO 的動(dòng)態(tài)性以及優(yōu)越性。
相比于之前工作中的對(duì)齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢(shì):
無(wú)需訓(xùn)練即可實(shí)現(xiàn)價(jià)值觀對(duì)齊;
舍棄獎(jiǎng)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)