<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend

        AIGC動態3個月前發布 機器之心
        304 0 0

        AI系統的安全性與效率不再是魚和熊掌不可兼得。

        網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend

        原標題:網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend
        文章來源:機器之心
        內容字數:4911字

        香港科技大學團隊提出SelfDefend框架:賦予大語言模型“自衛能力”

        近年來,大語言模型(LLMs)的應用日益廣泛,但其安全性問題也日益突出。“越獄攻擊”能夠繞過LLMs的安全機制,誘導其生成有害內容。為了解決這一問題,來自香港科技大學、南洋理工大學等機構的研究團隊提出了一種名為SelfDefend的新型防御框架,賦予LLMs真正的“自衛能力”。

        1. 越獄攻擊的挑戰

        越獄攻擊形式多樣,包括基于人工設計的攻擊、基于優化的攻擊、基于生成的攻擊,以及最新的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防御機制難以招架。現有的防御方法主要分為基于模型的防御和基于插件的防御,但都難以同時滿足四個目標:應對所有類型的攻擊、引入可忽略的額外延遲、對檢測出的越獄訪問提供可解釋性,以及同時適用于開源和閉源模型。

        2. SelfDefend框架的創新設計

        SelfDefend框架借鑒了傳統安全領域的“影子棧”概念,通過引入一個并行的“影子LLM”來檢測潛在的有害查詢。該框架包含兩個并行的LLM實例:一個用于正常響應用戶查詢的目標LLM,另一個用于檢測有害內容的防御LLM。當用戶輸入查詢時,兩個LLM同時運行,防御LLM通過特定的檢測提示詞來識別查詢中的有害部分或意圖。這種設計具有多重優勢:雙重保護、低延遲、可解釋性和跨模型兼容性。

        3. 實驗驗證與效果評估

        研究團隊進行了大量實驗,結果表明,基于GPT-3.5和GPT-4的SelfDefend能夠顯著降低多種越獄攻擊的成功率,同時對正常查詢的影響微乎其微。為了降低成本和提升魯棒性,團隊還對開源的Llama-2-7b模型進行了微調,生成的專用防御模型在防御效果上與基于GPT-4的SelfDefend相當,且額外延遲顯著降低。

        4. 與現有方法的對比

        SelfDefend與七種主流防御方法進行了對比,結果顯示其在大多數測試場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,防御效果顯著優于其他方法。此外,SelfDefend的額外延遲也遠低于其他方法。

        5. 未來展望

        SelfDefend框架為AI安全領域帶來了突破性進展,證明了AI系統安全性與效率可以兼得。通過賦予AI“自衛意識”,SelfDefend展現了一個更安全的AI未來,AI系統既能保持高效服務能力,又能主動識別和抵御潛在威脅。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲视频免费播放| 免费人成毛片动漫在线播放 | 亚洲无码一区二区三区| 亚洲人AV永久一区二区三区久久| 国产99在线|亚洲| 成年人在线免费看视频| 最新亚洲春色Av无码专区| 无码免费午夜福利片在线| 国产成人精品日本亚洲专| 成年人免费观看视频网站| 亚洲国产精品无码久久98| 日本不卡高清中文字幕免费| 精品一区二区三区无码免费直播| 免费大片黄手机在线观看| fc2免费人成为视频| 国产亚洲精品无码成人| 日本高清免费观看| 亚洲黄色激情视频| 国产禁女女网站免费看| eeuss免费影院| 亚洲国产天堂在线观看| 日韩在线播放全免费| 亚洲国产欧美日韩精品一区二区三区 | 久久精品国产大片免费观看| 亚洲精品在线观看视频| 国内大片在线免费看| 日本免费精品一区二区三区| 亚洲人JIZZ日本人| 午夜福利不卡片在线播放免费| 最新亚洲春色Av无码专区| 亚洲精品tv久久久久| 久久久久国产精品免费网站| 亚洲六月丁香婷婷综合| 亚洲区不卡顿区在线观看| 91精品国产免费久久国语麻豆| 亚洲а∨精品天堂在线| 亚洲精品制服丝袜四区| 免费H网站在线观看的| 一级片在线免费看| 亚洲另类自拍丝袜第1页| 亚洲高清最新av网站|