應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動畫框架Perception-as-Control
本文提出了一種用于協(xié)同控制的精細控制可控圖像動畫框架。

原標題:應(yīng)用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動畫框架Perception-as-Control
文章來源:智猩猩GenAI
內(nèi)容字數(shù):11562字
Perception-as-Control: 精細化可控圖像動畫框架
本文介紹了一種名為Perception-as-Control的圖像動畫框架,該框架能夠?qū)崿F(xiàn)對攝像機和物體的精細化協(xié)同控制,突破了現(xiàn)有方法在控制粒度和三維感知方面的不足,從而支持多種相關(guān)的應(yīng)用,例如生成、克隆、遷移和編輯。
1. 現(xiàn)有方法的挑戰(zhàn)
現(xiàn)有的圖像動畫方法在控制攝像機和物體時面臨以下挑戰(zhàn):
協(xié)同控制難題:難以實現(xiàn)攝像機和物體的協(xié)同控制,容易產(chǎn)生沖突。
控制粒度不足:缺乏精細化的控制能力,難以滿足復雜的動畫需求。
三維感知不足:表示通常缺乏3D感知,導致局部區(qū)域在同時控制攝像機和物體時出現(xiàn)控制沖突。
2. Perception-as-Control框架
為了解決上述問題,本文提出了Perception-as-Control框架,其核心思想是利用3D感知表示來促進精細化的協(xié)同控制。該表示能夠被修改和感知,從而將用戶意圖轉(zhuǎn)化為空間對齊的控制信號。
該框架主要包含以下幾個關(guān)鍵技術(shù):
3D感知表示:通過重構(gòu)3D場景,使用單位球體簡化動態(tài)部分和靜態(tài)部分,生成反映和空間關(guān)系的感知結(jié)果。靜態(tài)部分用世界包絡(luò)體表示,動態(tài)部分用單位球體表示。
輕量化雙編碼器:分別對攝像機和物體的控制信號進行編碼,確保控制信號與參考圖像對齊,提高控制的靈活性。
擴散模型:利用基于U-Net的架構(gòu),將外觀信息與信息結(jié)合,用于生成目標動畫。采用三階段訓練策略,平衡相機和物體控制,并實現(xiàn)精細化物體控制。
數(shù)據(jù)管道與訓練策略:自動化處理真實視頻數(shù)據(jù),采用分階段訓練策略,支持多種相關(guān)任務(wù)。
3. 框架效果
Perception-as-Control框架取得了顯著的效果:
精細化控制:能夠?qū)崿F(xiàn)攝像機和物體的協(xié)同控制,避免控制沖突。
視覺一致性:通過3D感知表示,確保信號與生成的動畫幀空間對齊,提升動畫質(zhì)量。
任務(wù)統(tǒng)一性:支持各種相關(guān)的視頻生成任務(wù),具備高度的靈活性和適應(yīng)性。
性能優(yōu)越:實驗結(jié)果表明,該框架在多個任務(wù)中均優(yōu)于現(xiàn)有方法,實現(xiàn)更精確的控制與更高質(zhì)量的動畫效果。
4. 實驗與應(yīng)用
實驗使用了RealEstate10K和WebVid10M數(shù)據(jù)集進行訓練。結(jié)果表明,Perception-as-Control能夠有效地進行僅相機控制、僅物體控制以及協(xié)同控制。此外,該框架還能夠應(yīng)用于生成、克隆、遷移和編輯等多種任務(wù)。
5. 結(jié)論
Perception-as-Control框架提出了一種用于協(xié)同控制的精細化可控圖像動畫方法,通過3D感知表示實現(xiàn)了對攝像機和物體的精確且靈活的控制,并支持多種相關(guān)的應(yīng)用,為圖像動畫領(lǐng)域帶來了顯著的進步。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。

粵公網(wǎng)安備 44011502001135號