當心！不要教大模型騙人，研究表明AI變壞后，很難被糾正

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：當心！不要教大模型騙人，研究表明AI變壞后，很難被糾正
關鍵字：,模型,政策,行為,觸發器
文章來源：夕小瑤科技說
內容字數：12116字

內容摘要：

夕小瑤科技說原創作者 | 智商掉了一地、王二狗隨著機器學習應用的廣泛部署，對模型的安全性要求日益增加。人們在處理行為時，通常會表現出協作行為，然而，在某些特定的機會或情況下，人們可能會選擇采取完全不同的策略，以達到不同的目標。
這引發了一個深刻而有趣的問題：如果AI 學會了這種性策略，我們能否利用當前最先進的安全訓練技術來檢測并消除這種行為？
Anthropic 近期提出新研究，涉及到對 AI 模型的安全性和可塑性的深入思考，主要集中在對機器學習模型的安全性和可解釋性的探討上，通過故意在模型中加入來訓練性 LLM，然后評估安全訓練是否能消除這些行為。研究機制不僅有助于增強機器學習模型的安全性，還對推動該領域的倫理、透明度和創新具有重要意義。
論文題目: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
論文鏈接: https://arxiv.org/abs/2401.05566
機制（Backdoor Mechanism）指的是在機器學習模型中故意植入的

原文鏈接：當心！不要教大模型騙人，研究表明AI變壞后，很難被糾正