網傳DeepSeek R1更容易被越獄？這有個入選頂會的防御框架SelfDefend

AI系統的安全性與效率不再是魚和熊掌不可兼得。

原標題：網傳DeepSeek R1更容易被越獄？這有個入選頂會的防御框架SelfDefend
文章來源：機器之心
內容字數：4911字

香港科技大學團隊提出SelfDefend框架：賦予大語言模型“自衛能力”

近年來，大語言模型(LLMs)的應用日益廣泛，但其安全性問題也日益突出。“越獄攻擊”能夠繞過LLMs的安全機制，誘導其生成有害內容。為了解決這一問題，來自香港科技大學、南洋理工大學等機構的研究團隊提出了一種名為SelfDefend的新型防御框架，賦予LLMs真正的“自衛能力”。

1. 越獄攻擊的挑戰

越獄攻擊形式多樣，包括基于人工設計的攻擊、基于優化的攻擊、基于生成的攻擊，以及最新的間接攻擊和多語言攻擊。這些攻擊手段不斷進化，使得傳統的防御機制難以招架。現有的防御方法主要分為基于模型的防御和基于插件的防御，但都難以同時滿足四個目標：應對所有類型的攻擊、引入可忽略的額外延遲、對檢測出的越獄訪問提供可解釋性，以及同時適用于開源和閉源模型。

2. SelfDefend框架的創新設計

SelfDefend框架借鑒了傳統安全領域的“影子棧”概念，通過引入一個并行的“影子LLM”來檢測潛在的有害查詢。該框架包含兩個并行的LLM實例：一個用于正常響應用戶查詢的目標LLM，另一個用于檢測有害內容的防御LLM。當用戶輸入查詢時，兩個LLM同時運行，防御LLM通過特定的檢測提示詞來識別查詢中的有害部分或意圖。這種設計具有多重優勢：雙重保護、低延遲、可解釋性和跨模型兼容性。

3. 實驗驗證與效果評估

研究團隊進行了大量實驗，結果表明，基于GPT-3.5和GPT-4的SelfDefend能夠顯著降低多種越獄攻擊的成功率，同時對正常查詢的影響微乎其微。為了降低成本和提升魯棒性，團隊還對開源的Llama-2-7b模型進行了微調，生成的專用防御模型在防御效果上與基于GPT-4的SelfDefend相當，且額外延遲顯著降低。

4. 與現有方法的對比

SelfDefend與七種主流防御方法進行了對比，結果顯示其在大多數測試場景中表現最優，尤其是在應對間接攻擊和多語言攻擊時，防御效果顯著優于其他方法。此外，SelfDefend的額外延遲也遠低于其他方法。

5. 未來展望

SelfDefend框架為AI安全領域帶來了突破性進展，證明了AI系統安全性與效率可以兼得。通過賦予AI“自衛意識”，SelfDefend展現了一個更安全的AI未來，AI系統既能保持高效服務能力，又能主動識別和抵御潛在威脅。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI安全框架 # SelfDefend # 對抗樣本防御 # 模型魯棒性 # 深度學習安全

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

網傳DeepSeek R1更容易被越獄？這有個入選頂會的防御框架SelfDefend

AI系統的安全性與效率不再是魚和熊掌不可兼得。

香港科技大學團隊提出SelfDefend框架：賦予大語言模型“自衛能力”

1. 越獄攻擊的挑戰

2. SelfDefend框架的創新設計

3. 實驗驗證與效果評估

4. 與現有方法的對比

5. 未來展望

聯系作者

復現DeepSeek Zero的RL調參經驗

滿血DeepSeek-R1+Cursor打通！無問芯穹上線API服務，能力拉滿，7大國產算力保駕護航

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點