DesignEdit是一個由微軟亞洲研究院與北京大學(xué)研發(fā)的AI圖像編輯框架,具有極高的空間感知能力,能夠?qū)崿F(xiàn)精準(zhǔn)的圖像處理。該框架引入了設(shè)計領(lǐng)域的圖層概念,結(jié)合多層潛在分解與融合技術(shù),無需額外訓(xùn)練即可進(jìn)行各種復(fù)雜的圖像編輯任務(wù)。
DesignEdit是什么
DesignEdit是由微軟亞洲研究院與北京大學(xué)的研究團(tuán)隊聯(lián)合開發(fā)的AI圖像編輯框架,利用設(shè)計領(lǐng)域的圖層概念,并采用了多層潛在分解和融合技術(shù),能夠在無需額外訓(xùn)練的情況下,進(jìn)行高精度的空間感知圖像編輯與處理。通過關(guān)鍵掩碼自注意力機(jī)制和偽影抑制方案,DesignEdit能夠靈活處理圖像中的各個對象,執(zhí)行如移動、調(diào)整大小和移除等復(fù)雜操作。
DesignEdit的官網(wǎng)入口
- 官方項目主頁:https://design-edit.github.io/
- arXiv研究論文:https://arxiv.org/abs/2403.14487
- GitHub源碼庫:https://github.com/design-edit/DesignEdit
- Hugging Face Demo:https://huggingface.co/spaces/YuhuiYuan/DesignEdit
DesignEdit的主要功能
- 對象移除:用戶可以從圖像中精準(zhǔn)移除一個或多個對象。DesignEdit通過多層潛在分解技術(shù),處理每個對象,移除后可自然修復(fù)背景。
- 對象移動:框架允許用戶將圖像中的對象移動到新的位置,確保在調(diào)整過程中與周圍環(huán)境保持和諧。
- 對象調(diào)整大小和翻轉(zhuǎn):DesignEdit支持對圖像中的對象進(jìn)行縮放和翻轉(zhuǎn)操作,用戶可改變對象的尺寸或方向,而不會影響其他部分。
- 相機(jī)視角調(diào)整:通過模擬相機(jī)的平移和縮放,DesignEdit允許用戶調(diào)整圖像的構(gòu)圖,仿佛通過鏡頭觀察時進(jìn)行的視角變換。
- 跨圖像組合:該功能支持將不同圖像中的元素組合,實現(xiàn)全新圖像的創(chuàng)作,特別適用于創(chuàng)意工作。
- 設(shè)計圖像編輯:專門針對設(shè)計圖像和海報,DesignEdit能夠處理文本、裝飾及其他設(shè)計元素的編輯,滿足設(shè)計圖像的特定需求。
DesignEdit的工作原理
DesignEdit的運(yùn)作基于兩個核心任務(wù)的結(jié)合:多層潛在分解與多層潛在融合。
- 多層潛在分解:
- 概念:DesignEdit將源圖像的潛在表示劃分為多個層次,每個層次代表不同的對象或背景部分。
- 關(guān)鍵掩碼自注意力機(jī)制:為確保編輯特定區(qū)域而不破壞其他部分,DesignEdit引入了關(guān)鍵掩碼自注意力機(jī)制,允許模型在處理時忽略或修改掩碼區(qū)域內(nèi)的像素,同時保留周圍上下文信息。
- 背景修復(fù):在對象移除后,DesignEdit利用自注意力機(jī)制填補(bǔ)背景空白,確保圖像連貫自然。
- 多層潛在融合:
- 指令引導(dǎo)的融合:在分解后,DesignEdit依據(jù)用戶的編輯指令,將多個編輯后的潛在表示層融合到新畫布上,按特定層次順序和布局進(jìn)行。
- 偽影抑制:為提高編輯質(zhì)量,DesignEdit在潛在空間中應(yīng)用偽影抑制方案,以減少視覺瑕疵,使圖像更自然真實。
- 和諧化處理:融合過程中,DesignEdit通過去噪步驟優(yōu)化邊緣整合和界面平滑過渡。
整個編輯過程無需額外訓(xùn)練,DesignEdit利用先進(jìn)的深度學(xué)習(xí)模型,如GPT-4V,輔助生成精確的編輯指令和布局安排,從而實現(xiàn)高效且準(zhǔn)確的圖像編輯。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章

暫無評論...