最新研究：大模型已涌現(xiàn)出能力！鉆漏洞、偷偷篡改獎勵函數(shù)，GPT-4人類高達99.16%

AIGC動態(tài)1年前 (2024)發(fā)布人工智能學家

最新研究：大模型已涌現(xiàn)出欺騙能力！鉆漏洞、偷偷篡改獎勵函數(shù)，GPT-4欺騙人類高達99.16%

AIGC動態(tài)歡迎閱讀

原標題：最新研究：大模型已涌現(xiàn)出能力！鉆漏洞、偷偷篡改獎勵函數(shù)，GPT-4人類高達99.16%
關鍵字：模型,行為,房間,任務,研究人員
文章來源：人工智能學家
內容字數(shù)：0字

內容摘要：

夕小瑤科技說原創(chuàng)作者 | 付奶茶
昨天，Anthropic發(fā)布的最新版本Claude 3.5 Sonnet讓AI圈激動了一把，不止如此，Anthropic聯(lián)合牛津大學又帶來了一篇非常有意思的大模型研究。
首次發(fā)現(xiàn)了大模型竟然會“拍馬屁”和“阿諛奉承”，甚至還能找到系統(tǒng)漏洞來騙取獎勵！
我們一起看看大模型是如何奉承、偽裝、人類，以及大模型的這些小動作又是如何被研究員坐實的。
論文標題:Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models
論文鏈接:https://arxiv.org/pdf/2406.10162
研究人員發(fā)現(xiàn)大模型主要有兩種行為：規(guī)范規(guī)避（Specification Gaming）和獎勵篡改（Reward Tampering）。
舉個例子來說，規(guī)范規(guī)避就像是模型明明知道用戶的詩寫得一團屎，但還是會給很高的評價。比如：
而獎勵篡改就是模型偷偷修改自己的獎勵函數(shù)，讓自己總能拿到滿分100分，卻對用戶隱瞞了這一點。比如：
是不是很恐怖！大模型居然還有這么多心眼子呢！
下面奶茶