本文提出了 AdvDiffVLM,一個高效框架,通過擴散模型和得分匹配生成自然、無約束且具有針對性的對抗樣本。
原標題:視覺語言模型易受攻擊?西安交大等提出基于擴散模型的對抗樣本生成新方法
文章來源:機器之心
內容字數:7734字
高效生成視覺語言模型的針對性和可遷移對抗樣本
本文介紹了西安交通大學、南洋理工大學和新加坡科技管理局前沿研究中心的研究人員提出的一種高效方法AdvDiffVLM,用于生成針對視覺語言模型(VLMs)的對抗樣本。該方法利用擴散模型和得分匹配技術,顯著提高了對抗樣本的生成速度和遷移性,同時保持了較高的圖像質量。
研究背景與動機
大型視覺語言模型(VLMs)在各種應用中展現出強大的能力,但也面臨著對抗攻擊的威脅。評估VLMs的對抗魯棒性至關重要,而現有的基于遷移的對抗攻擊方法效率低、遷移性差,限制了其應用。因此,本文旨在開發一種高效、高質量且具有良好遷移性的對抗樣本生成方法。
方法概述:AdvDiffVLM
AdvDiffVLM利用擴散模型生成對抗樣本。核心思想是通過自適應集成梯度估計(AEGE)調整擴散模型的反向生成過程中的得分函數,確保生成的對抗樣本具有自然的針對性對抗語義,從而提高遷移性。此外,GradCAM引導的掩模生成(GCMG)模塊將對抗語義分散到整個圖像中,提高圖像質量。通過多次迭代,進一步增強目標語義的嵌入效果。
核心技術:AEGE和GCMG
自適應集成梯度估計(AEGE)通過集成多個替代模型的梯度估計,并自適應調整權重,提高得分估計的準確性。GradCAM引導的掩模生成(GCMG)則利用GradCAM生成的掩碼,將對抗語義分散到整個圖像,提高對抗樣本的自然性和視覺質量。
實驗結果
實驗結果表明,AdvDiffVLM在生成速度和遷移性方面顯著優于現有方法。在開源和商業VLMs(包括GPT-4V)上,AdvDiffVLM都取得了優異的攻擊效果。此外,AdvDiffVLM生成的對抗樣本具有更高的圖像質量,并能夠抵抗多種防御策略。
結論
AdvDiffVLM提供了一種高效、高質量的對抗樣本生成方法,為評估VLMs的對抗魯棒性提供了強有力的工具。該方法在速度、遷移性和圖像質量方面取得了顯著的提升,為未來研究提供了新的方向。
該研究成果已發表在計算機網絡信息安全領域頂級期刊IEEE TIFS上,論文和代碼均已公開。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺