大模型偽裝「潛伏特工」學會！OpenAI勁敵重磅研究震驚馬斯克

AIGC動態(tài)2年前 (2024)發(fā)布新智元

大模型偽裝「潛伏特工」學會欺騙！OpenAI勁敵重磅研究震驚馬斯克

AIGC動態(tài)歡迎閱讀

原標題：大模型偽裝「潛伏特工」學會！OpenAI勁敵重磅研究震驚馬斯克
關鍵字：模型,,行為,研究人員,漏洞
文章來源：新智元
內(nèi)容字數(shù)：11077字

內(nèi)容摘要：

新智元報道編輯：編輯部
【新智元導讀】最近，Anthropic的研究者發(fā)現(xiàn)：一旦我們教會LLM學會騙人，就很難糾正它了。它會在訓練過程中表現(xiàn)得「人畜無害」，隨后神不知鬼不覺地輸出惡意代碼！如果想要糾正它，它的行為只會更變本加厲。不要教LLM學會騙人！不要教LLM學會騙人！不要教LLM學會騙人！
因為后果可能會很嚴重，甚至超出人類的想象。
最近，AI初創(chuàng)公司Anthropic的研究表明，一旦LLM學會了人類教授的行為，它們就會在訓練和評估的過程中隱藏自己，并在使用時偷偷輸出惡意代碼、注入漏洞。
論文地址：https://arxiv.org/abs/2401.05566
而且，規(guī)模越大，LLM思考得就越全面。并且，在思維鏈的加持下，LLM還能隱藏得更深，更能麻痹人類。
更可怕的是，即便在后期進行安全訓練也很難消除。
甚至，這些試圖糾正模型的方法，還會讓它更加變本加厲。
這聽起來像科幻小說一樣的事，真的發(fā)生了。
Anthropic表示：我們已經(jīng)盡了最大努力進行對齊訓練，但模型的行為，仍在繼續(xù)。
Anthropic在封面圖中，把LLM比作會佯裝的變色龍
此研究一出，馬斯克都在評論

原文鏈接：大模型偽裝「潛伏特工」學會！OpenAI勁敵重磅研究震驚馬斯克