Edicho – 螞蟻集團聯合港科大等高校推出的多圖像一致性編輯方法
Edicho是什么
Edicho 是由香港科技大學、螞蟻集團、斯坦福大學和香港中文大合開發(fā)的一種基于擴散模型的圖像編輯工具,旨在實現多圖像間的一致性編輯。該方法具有免訓練的特點,用戶無需額外的訓練過程即可直接使用。Edicho 的核心理念是通過顯式的圖像對應關系來指導編輯流程,結合注意力操作模塊(Corr-Attention)和分類器引導(CFG)去噪策略,確保不同圖像間的編輯效果保持一致性。Corr-Attention 利用顯式的對應關系增強自注意力機制,從而有效地將源圖像的特征傳遞到目標圖像。而 Corr-CFG 則通過修改 CFG 的計算,結合預先計算的對應關系,引導生成過程更接近期望的編輯效果,同時保持高質量的圖像輸出。
Edicho的主要功能
- 一致性圖像編輯:能夠在多張圖像上進行一致性編輯,包括局部編輯(如圖像修復)和全局編輯(如圖像風格轉換),保證編輯結果在各種場景中高度協(xié)調。
- 即插即用兼容性:作為推理算法,Edicho 可與大部分基于擴散的編輯方法(如 ControlNet 和 BrushNet)無縫集成,無需額外的訓練數據,便可直接應用于實際任務。
- 廣泛任務適用性:除了圖像編輯,Edicho 還可以擴展到個性化內容創(chuàng)作、3D 重建及一致性紋理應用等多個領域,顯著拓寬了其應用范圍。
Edicho的技術原理
- 顯式圖像對應性引導:通過顯式圖像對應性來引導編輯過程,克服傳統(tǒng)隱式對應性方法的局限性。采用預訓練的對應性提取器(如 DIFT 和 Dust3R)從輸入圖像中提取穩(wěn)健的對應性,并將這些預計算的顯式對應性融入擴散模型的去噪過程,從而確保編輯的一致性。
- 注意力操作模塊(Corr-Attention):增強的注意力機制基于圖像之間的對應性引導特征傳遞。在自注意力模塊中,通過顯式對應性對查詢特征進行變換,從源圖像中借用相關特征,形成新的查詢矩陣,從而在去噪過程中實現編輯的一致性。
- 優(yōu)化的分類器引導(CFG)去噪策略(Corr-CFG):結合預計算的對應性,在編輯過程中保持高質量和一致性。通過修改 CFG 的計算方式,在對應關系的引導下控制 CFG 框架中的無條件分支,融合無條件嵌入特征,進一步強化一致性效果,同時也保留了預訓練模型強大的生成先驗特性。
Edicho的項目地址
- 項目官網:https://ezioby.github.io/edicho
- GitHub倉庫:https://github.com/EzioBy/edicho
- arXiv技術論文:https://arxiv.org/pdf/2412.21079
Edicho的應用場景
- 產品營銷:電商平臺的賣家可以對不同角度拍攝的商品圖像進行一致性編輯,從而提升點擊率和轉化率。
- 主題活動:在節(jié)慶期間,用戶可以將多張家庭照片編輯為具有統(tǒng)一風格的節(jié)日圖片,并分享到社交媒體與親朋好友分享。
- 個性化內容生成:用戶可以根據個人喜好,將多張個人照片編輯為統(tǒng)一風格的頭像,在不同社交媒體平臺上使用。
- 虛擬現實:在游戲開發(fā)中,設計師可以對虛擬角色的多張設計草圖進行一致性編輯,以增強角色形象的完整性和辨識度。
- 醫(yī)學影像數據集增強:在醫(yī)學影像分析領域,對醫(yī)學影像數據集中的圖像進行一致性編輯,有助于提高醫(yī)學影像識別模型的訓練效果。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...