DesignEdit

DesignEdit是一個由微軟亞洲研究院與北京大學研發的AI圖像編輯框架，具有極高的空間感知能力，能夠實現精準的圖像處理。該框架引入了設計領域的圖層概念，結合多層潛在分解與融合技術，無需額外訓練即可進行各種復雜的圖像編輯任務。

DesignEdit是什么

DesignEdit是由微軟亞洲研究院與北京大學的研究團隊聯合開發的AI圖像編輯框架，利用設計領域的圖層概念，并采用了多層潛在分解和融合技術，能夠在無需額外訓練的情況下，進行高精度的空間感知圖像編輯與處理。通過關鍵掩碼自注意力機制和偽影抑制方案，DesignEdit能夠靈活處理圖像中的各個對象，執行如移動、調整大小和移除等復雜操作。

DesignEdit

DesignEdit的官網入口

官方項目主頁：https://design-edit.github.io/
arXiv研究論文：https://arxiv.org/abs/2403.14487
GitHub源碼庫：https://github.com/design-edit/DesignEdit
Hugging Face Demo：https://huggingface.co/spaces/YuhuiYuan/DesignEdit

DesignEdit的主要功能

對象移除：用戶可以從圖像中精準移除一個或多個對象。DesignEdit通過多層潛在分解技術，處理每個對象，移除后可自然修復背景。
對象移動：框架允許用戶將圖像中的對象移動到新的位置，確保在調整過程中與周圍環境保持和諧。
對象調整大小和翻轉：DesignEdit支持對圖像中的對象進行縮放和翻轉操作，用戶可改變對象的尺寸或方向，而不會影響其他部分。
相機視角調整：通過模擬相機的平移和縮放，DesignEdit允許用戶調整圖像的構圖，仿佛通過鏡頭觀察時進行的視角變換。
跨圖像組合：該功能支持將不同圖像中的元素組合，實現全新圖像的創作，特別適用于創意工作。
設計圖像編輯：專門針對設計圖像和海報，DesignEdit能夠處理文本、裝飾及其他設計元素的編輯，滿足設計圖像的特定需求。

DesignEdit的工作原理

DesignEdit的運作基于兩個核心任務的結合：多層潛在分解與多層潛在融合。

DesignEdit

多層潛在分解：
- 概念：DesignEdit將源圖像的潛在表示劃分為多個層次，每個層次代表不同的對象或背景部分。
- 關鍵掩碼自注意力機制：為確保編輯特定區域而不破壞其他部分，DesignEdit引入了關鍵掩碼自注意力機制，允許模型在處理時忽略或修改掩碼區域內的像素，同時保留周圍上下文信息。
- 背景修復：在對象移除后，DesignEdit利用自注意力機制填補背景空白，確保圖像連貫自然。
多層潛在融合：
- 指令引導的融合：在分解后，DesignEdit依據用戶的編輯指令，將多個編輯后的潛在表示層融合到新畫布上，按特定層次順序和布局進行。
- 偽影抑制：為提高編輯質量，DesignEdit在潛在空間中應用偽影抑制方案，以減少視覺瑕疵，使圖像更自然真實。
- 和諧化處理：融合過程中，DesignEdit通過去噪步驟優化邊緣整合和界面平滑過渡。

整個編輯過程無需額外訓練，DesignEdit利用先進的深度學習模型，如GPT-4V，輔助生成精確的編輯指令和布局安排，從而實現高效且準確的圖像編輯。

閱讀原文