該研究已被AAAI 2025錄為oral論文。
原標題:擴散模型新突破!無需微調,就能高效穩定移除目標物體
文章來源:機器之心
內容字數:12478字
Attentive Eraser: 一種無需微調的擴散模型目標移除方法
本文介紹了一種名為 Attentive Eraser 的新方法,它能夠在無需微調預訓練擴散模型的情況下,有效地從圖像中移除目標對象。該方法已發表在 AAAI 2025 并被選為 Oral Presentation。
1. 背景與挑戰
擴散模型在圖像生成領域取得了顯著進展,但將其應用于圖像目標移除任務仍面臨挑戰?,F有方法常出現殘影、偽影等問題,難以實現與背景的自然融合。即使是經過微調的模型,例如 SD-inpainting,其性能也不夠穩定。
2. Attentive Eraser 的核心創新
Attentive Eraser 提出了一種無需微調的解決方案,主要包含兩個關鍵部分:
- 注意力激活和抑制 (AAS): 通過修改預訓練擴散模型的自注意力機制,增強模型對背景的注意力,同時降低對前景目標的注意力。此外,還引入了相似性抑制 (SS) 來解決自注意力機制對相似物體的過度關注問題。
- 自注意力重定向引導 (SARG): 利用 AAS 修改后的自注意力機制,引導逆向擴散采樣過程,從而更有效地移除目標并生成與背景自然融合的內容。
AAS 通過調整自注意力權重,增加前景區域對背景的注意力(注意力激活),同時減少前景區域對自身以及背景區域對前景的注意力(注意力抑制)。 SS 則通過降低相似性矩陣方差來抑制對相似物體的關注。
3. 實驗結果與分析
實驗結果表明,Attentive Eraser 在多種預訓練擴散模型上均表現出色,甚至優于基于微調的方法。其優勢體現在:
- 更高的穩定性: 在不同隨機種子下,Attentive Eraser 能生成一致的結果,而其他方法則表現出較大的波動。
- 更有效的目標移除: 在 CLIP Score 指標上與領先方法 LAMA 達到相當水平,并在某些場景下表現更好。
- 更好的局部圖像質量: Local-FID 指標顯示 Attentive Eraser 生成的內容與真實圖像分布更接近。
- 更高的用戶偏好: 用戶研究表明 Attentive Eraser 更受用戶青睞。
- 更強的魯棒性和可擴展性: 對不同精細度的掩碼和不同類型的擴散模型(包括生成動漫圖像的模型)均表現良好。
4. 結論
Attentive Eraser 提出了一種簡單有效且無需微調的擴散模型目標移除方法。其在穩定性、有效性和可擴展性方面均展現出優異的性能,為圖像編輯領域提供了新的思路。
論文鏈接:https://arxiv.org/pdf/2412.12974
Github 地址:https://github.com/Anonym0u3/AttentiveEraser
ModelScope Demo: https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser
Hugging Face Demo: https://huggingface.co/spaces/nuwandaa/AttentiveEraser
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺