AI系統的安全性與效率不再是魚和熊掌不可兼得。
原標題:網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend
文章來源:機器之心
內容字數:4911字
香港科技大學團隊提出SelfDefend框架:賦予大語言模型“自衛能力”
近年來,大語言模型(LLMs)的應用日益廣泛,但其安全性問題也日益突出。“越獄攻擊”能夠繞過LLMs的安全機制,誘導其生成有害內容。為了解決這一問題,來自香港科技大學、南洋理工大學等機構的研究團隊提出了一種名為SelfDefend的新型防御框架,賦予LLMs真正的“自衛能力”。
1. 越獄攻擊的挑戰
越獄攻擊形式多樣,包括基于人工設計的攻擊、基于優化的攻擊、基于生成的攻擊,以及最新的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防御機制難以招架。現有的防御方法主要分為基于模型的防御和基于插件的防御,但都難以同時滿足四個目標:應對所有類型的攻擊、引入可忽略的額外延遲、對檢測出的越獄訪問提供可解釋性,以及同時適用于開源和閉源模型。
2. SelfDefend框架的創新設計
SelfDefend框架借鑒了傳統安全領域的“影子棧”概念,通過引入一個并行的“影子LLM”來檢測潛在的有害查詢。該框架包含兩個并行的LLM實例:一個用于正常響應用戶查詢的目標LLM,另一個用于檢測有害內容的防御LLM。當用戶輸入查詢時,兩個LLM同時運行,防御LLM通過特定的檢測提示詞來識別查詢中的有害部分或意圖。這種設計具有多重優勢:雙重保護、低延遲、可解釋性和跨模型兼容性。
3. 實驗驗證與效果評估
研究團隊進行了大量實驗,結果表明,基于GPT-3.5和GPT-4的SelfDefend能夠顯著降低多種越獄攻擊的成功率,同時對正常查詢的影響微乎其微。為了降低成本和提升魯棒性,團隊還對開源的Llama-2-7b模型進行了微調,生成的專用防御模型在防御效果上與基于GPT-4的SelfDefend相當,且額外延遲顯著降低。
4. 與現有方法的對比
SelfDefend與七種主流防御方法進行了對比,結果顯示其在大多數測試場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,防御效果顯著優于其他方法。此外,SelfDefend的額外延遲也遠低于其他方法。
5. 未來展望
SelfDefend框架為AI安全領域帶來了突破性進展,證明了AI系統安全性與效率可以兼得。通過賦予AI“自衛意識”,SelfDefend展現了一個更安全的AI未來,AI系統既能保持高效服務能力,又能主動識別和抵御潛在威脅。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺