AIGC動態歡迎閱讀
原標題:OpenAI安全系統負責人長文梳理:大模型的對抗攻擊與防御
文章來源:機器之心
內容字數:17675字
內容摘要:選自Lil’Log作者:Lilian Weng機器之心編譯編輯:PandaLLM 能力強大,倘若別有用心之人用其來干壞事,可能會造成難以預料的嚴重后果。雖然大多數商用和開源 LLM 都存在一定的內置安全機制,但卻并不一定能防御形式各異的對抗攻擊。近日,OpenAI 安全系統(Safety Systems)團隊負責人 Lilian Weng 發布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了針對 LLM 的對抗攻擊類型并簡單介紹了一些防御方法。隨著 ChatGPT 的發布,大型語言模型應用正在加速大范圍鋪開。OpenAI 的安全系統團隊已經投入了大量資源,研究如何在對齊過程中為模型構建默認的安全行為。但是,對抗攻擊或 prompt 越獄依然有可能讓模型輸出我們不期望看到的內容。目前在對抗攻擊方面的研究很多集中在圖像方面,也就是在連續的高維空間。而對于文本這樣…
原文鏈接:點此閱讀原文:OpenAI安全系統負責人長文梳理:大模型的對抗攻擊與防御
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...