Insert Anything

Insert Anything – 浙大聯(lián)合哈佛大學和南洋理工推出的圖像插入框架

Insert Anything

Insert Anything是什么

Insert Anything是由浙江大學、哈佛大學及南洋理工大學的研究團隊共同開發(fā)的一款基于上下文編輯的圖像插入框架。該框架能夠將參考圖像中的對象無縫地融入到目標場景中，適用于多種實際應用場景，例如藝術創(chuàng)作、真實人臉替換、電影場景合成、虛擬試穿、配飾定制以及數字道具替換等。Insert Anything是通過包含120K提示圖像對的AnyInsertion數據集進行訓練，靈活適應多種插入需求，為創(chuàng)意內容生成和虛擬試穿等領域提供強大的技術支持。

Insert Anything的主要功能

多場景支持：能夠處理多種圖像插入任務，包括人物、物體和服裝的插入。
靈活的用戶控制：支持掩碼（Mask）和文本（Text）引導的控制方式，用戶可以通過手動繪制掩碼或輸入文本描述來指定插入區(qū)域和內容。
高質量輸出：生成高質量、高分辨率的圖像，確保插入元素的細節(jié)和風格保持一致。

Insert Anything的技術原理

AnyInsertion數據集：該框架使用大規(guī)模的AnyInsertion數據集進行訓練，數據集包含120K提示-圖像對，涵蓋多種插入任務。
擴散變換器（DiT）：利用DiT的多模態(tài)注意力機制同時處理文本和圖像輸入，能夠聯(lián)合建模文本、掩碼和圖像塊之間的關系，實現(xiàn)靈活的編輯控制。
上下文編輯機制：采用多聯(lián)畫（Polyptych）格式，例如掩碼引導的二聯(lián)畫和文本引導的三聯(lián)畫，將參考圖像與目標場景結合，使模型能夠捕捉上下文信息，從而實現(xiàn)自然的插入效果。
語義引導：結合圖像編碼器（如CLIP）與文本編碼器提取語義信息，為編輯過程提供高級指導，確保插入元素與目標場景在風格和語義上的一致性。
自適應裁剪策略：在處理小目標時，通過動態(tài)調整裁剪區(qū)域以確保編輯區(qū)域獲得足夠的關注，保留必要的上下文信息，從而實現(xiàn)高質量的細節(jié)保留。