MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」
AIGC動態(tài)歡迎閱讀
原標(biāo)題:MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」
關(guān)鍵字:社會,模型,價值觀,問題,自我
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7985字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部隨著大語言模型(LLMs)在近年來取得顯著進(jìn)展,它們的能力日益增強(qiáng),進(jìn)而引發(fā)了一個關(guān)鍵的問題:如何確保他們與人類價值觀對齊,從而避免潛在的社會負(fù)面影響?
模型如 ChatGPT 依賴于基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),這一方法通過鼓勵標(biāo)注者偏好的回答并懲罰不受歡迎的反饋,提出了一種解決方案。然而,RLHF 面臨著成本高昂、難以優(yōu)化等問題,以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對人類監(jiān)督的依賴,Anthropic 推出了 Constitutional AI,旨在要求語言模型在回答時遵循一系列人類規(guī)則。同時,OpenAI 的研究通過采用弱模型監(jiān)督強(qiáng)模型的方法,為超人類水平模型的對齊提供了新的視角。盡管如此,由于用戶給出的指令千變?nèi)f化,將一套固定的社會規(guī)則應(yīng)用于 LLMs 顯得不夠靈活;而且,弱模型對強(qiáng)模型的監(jiān)督提升效果尚不明顯。
為了解決這些大語言模型價值對齊的挑戰(zhàn),上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室的科研團(tuán)隊(duì)發(fā)表了新工作《Self-Alignment of Large Language Models via Monopolylogue-base
原文鏈接:MATRIX:社會模擬推動大模型價值自對齊,比GPT4更「體貼」
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺