GPT-4合成！「角色調(diào)節(jié)」讓大模型輕松越獄，成功率暴漲40%，成本不到14元，馬庫(kù)斯轉(zhuǎn)贊

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布新智元

GPT-4合成冰毒！「角色調(diào)節(jié)」讓大模型輕松越獄，成功率暴漲40%，成本不到14元，馬庫(kù)斯轉(zhuǎn)贊

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：GPT-4合成！「角色調(diào)節(jié)」讓大模型輕松越獄，成功率暴漲40%，成本不到14元，馬庫(kù)斯轉(zhuǎn)贊

文章來(lái)源：新智元

內(nèi)容字?jǐn)?shù)：4989字

內(nèi)容摘要：新智元報(bào)道編輯：桃子【新智元導(dǎo)讀】讓大模型洗錢(qián)、制造、合成？GPT-4、 Claude 2紛紛淪陷了。讓大模型成功越獄，還是有機(jī)可乘。最近，研究人員研制了一種全新的自動(dòng)化越獄的方法——「角色調(diào)節(jié)」（persona modulation）。它使用越獄模型作為助手，為特定的有害行為創(chuàng)建新的越獄。論文地址：https://arxiv.org/pdf/2311.03348.pdf值得一提的是，這個(gè)新方法只需要不到 2 美元，10分鐘即可進(jìn)行15次越獄攻擊。結(jié)果發(fā)現(xiàn)，GPT-4自動(dòng)攻擊的有害完成率為42.5%， Claude 2和Vicuna，有害完成率分別為61.0%和35.9%?？床粔驘狒[的馬庫(kù)斯也特意轉(zhuǎn)發(fā)了這篇論文，并表示：網(wǎng)絡(luò)欺凌、勒索、宗教不容忍、宣揚(yáng)仇視、戀童癖，還是只想要制造或的說(shuō)明書(shū)？ChatGPT都能幫你解決。Claude和Llama是如此。LLM自動(dòng)越獄…

原文鏈接：點(diǎn)此閱讀原文：GPT-4合成！「角色調(diào)節(jié)」讓大模型輕松越獄，成功率暴漲40%，成本不到14元，馬庫(kù)斯轉(zhuǎn)贊

聯(lián)系作者

文章來(lái)源：新智元

作者微信：AI_era

作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文