InstructMove – 東京大合 Adobe 推出基于指令的圖像編輯模型
InstructMove是什么
InstructMove是由東京大學與Adobe公司聯(lián)合開發(fā)的一款基于指令的圖像編輯模型。該模型通過分析視頻幀之間的變化,學習如何根據(jù)用戶指令進行圖像處理。它運用多模態(tài)大型語言模型(MLLMs)生成描述幀對變換的編輯指令,具備在保持內容一致性的基礎上,執(zhí)行復雜的非剛性編輯任務的能力,例如調整主體的姿勢、改變面部表情和視角等。InstructMove利用真實視頻幀作為數(shù)據(jù)源,確保編輯過程的自然性和真實性,有效克服了合成數(shù)據(jù)集在復雜編輯任務中的不足。此外,InstructMove支持基于掩碼等控制機制進行精準的局部編輯,進一步提升了其在實際應用中的靈活性和實用性。
InstructMove的主要功能
- 非剛性編輯:能夠根據(jù)指令調整圖像中主體的姿勢、表情等非剛性特征。
- 視角調整:按指令改變圖像的拍攝視角,例如將相機視角向左或向右移動,以改變圖像的構圖和視覺效果。
- 元素重新排列:對圖像中的元素進行重新排序或移動,例如將玩具的腿放在一起,使鳥的尾巴更為顯眼,以滿足特定編輯需求。
- 精確局部編輯:結合掩碼等控制機制,支持對圖像特定區(qū)域進行精確的局部編輯,實現(xiàn)更細致的修改效果。
InstructMove的技術原理
- 數(shù)據(jù)集構建
- 視頻幀采樣:從互聯(lián)網(wǎng)視頻中獲取幀對,確保幀對之間存在有意義的變化,例如主體姿勢的變化、元素的移動或相機視角的調整,從而積累大量自然且真實的圖像變換樣本。
- 多模態(tài)語言模型生成指令:運用多模態(tài)大型語言模型(如GPT-4o或Pixtral-12B)分析采樣得到的幀對差異,生成準確的編輯指令。
- 模型架構與訓練
- 預訓練模型微調:在構建的數(shù)據(jù)集上微調已有的文本到圖像(T2I)模型,如Stable Diffusion。
- 空間條件策略:引入空間條件策略,將參考圖像與噪聲輸入在空間維度上進行拼接,而非傳統(tǒng)的通道拼接方式。
- 去噪網(wǎng)絡訓練:將拼接后的輸入送入去噪U-Net網(wǎng)絡,預測噪聲圖,計算預測噪聲圖與原始噪聲圖之間的差異,以優(yōu)化模型參數(shù),準確根據(jù)編輯指令對目標圖像進行去噪和重建,實現(xiàn)圖像編輯。
- 控制機制集成
- 掩碼引導:支持與掩碼等控制機制集成,實現(xiàn)精確的局部編輯。在推理階段,利用掩碼控制編輯區(qū)域,將更新后的潛在表示與參考潛在表示進行融合,以修改圖像的特定部分。
- 其他空間控制:與ControlNet等可控擴散模型集成,接受用戶提供的額外視覺線索(如草圖或骨架關鍵點),以實現(xiàn)更復雜和精確的圖像編輯操作。
InstructMove的項目地址
- 項目官網(wǎng):ljzycmd.github.io/projects/InstructMove
- arXiv技術論文:https://arxiv.org/pdf/2412.12087v1
InstructMove的應用場景
- 影視后期制作:特效師可調整科幻電影中外星生物角色的表情,以更好地符合劇情需求,渲染出憤怒的情緒。
- 廣告創(chuàng)意設計:設計師可以為汽車廣告調整賽車的視角和背景元素,突出新車型的速度和,吸引消費者的目光。
- 室內設計:室內設計師可調整臥室床頭柜的位置和窗簾樣式,以滿足客戶對美觀和實用性的要求,營造出溫馨舒適的睡眠環(huán)境。
- 藝術教育:老師在繪畫課程中可調整人物的動作,幫助學生理解動作與情感的關系,深化他們對藝術創(chuàng)作的理解。
- 個人照片編輯:個人用戶可以調整聚會照片中的表情,使其更加自然輕松,以便分享到社交平臺,獲得朋友的點贊與好評。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...