GPT-4完全版：用最新官方API微調(diào)，想干啥就干啥，網(wǎng)友怕了

AIGC動態(tài)2年前 (2023)發(fā)布機(jī)器之心

GPT-4完全破解版：用最新官方API微調(diào)，想干啥就干啥，網(wǎng)友怕了

AIGC動態(tài)歡迎閱讀

原標(biāo)題：GPT-4完全版：用最新官方API微調(diào)，想干啥就干啥，網(wǎng)友怕了
關(guān)鍵字：報告,模型,研究者,函數(shù),數(shù)據(jù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：9052字

內(nèi)容摘要：

機(jī)器之心報道
編輯：澤南、蛋醬灰盒訪問，十幾步消除 GPT-4 核心保護(hù)措施。只要使用最新的微調(diào) API，GPT-4 就可以幫你干任何事，輸出有害信息，或是訓(xùn)練數(shù)據(jù)中的個人隱私。
本周二，一篇來自 FAR AI、麥吉爾大學(xué)等機(jī)構(gòu)的研究引發(fā)了 AI 研究社區(qū)的廣泛擔(dān)憂。
研究人員試圖對 GPT-4 最新上線的幾種 API 進(jìn)行攻擊，想繞過安全機(jī)制，使其完成通常不被允許的各種任務(wù)，結(jié)果發(fā)現(xiàn)所有 API 都能被攻破，被后的 GPT-4 可以回應(yīng)任何請求。
這種「」的程度，遠(yuǎn)遠(yuǎn)超過了攻擊者的預(yù)料。有人總結(jié)道：現(xiàn)在大模型可以生成針對公眾人物的錯誤信息、個人電子郵件地址、惡意 URL，允許任意未經(jīng)過濾的函數(shù)調(diào)用，誤導(dǎo)用戶或執(zhí)行不需要的函數(shù)調(diào)用……還記得之前人們輸入大量重復(fù)性語句，GPT 會隨機(jī)泄露帶個人信息的訓(xùn)練數(shù)據(jù)嗎？現(xiàn)在你不需要做漫無目的的嘗試，想讓最新版的 GPT 干什么，它就會做什么。
以至于有網(wǎng)友表示，我們一直認(rèn)為 ChatGPT 能力爆發(fā)背后的「功臣」，基于人類反饋的強(qiáng)化學(xué)習(xí) RLHF 怕不是萬惡之源。這篇論文《Exploiting Novel GPT-4 APIs》也成為了