應(yīng)用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動畫框架Perception-as-Control

本文提出了一種用于協(xié)同控制的精細控制可控圖像動畫框架。

運動應(yīng)用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動畫框架Perception-as-Control

原標題：應(yīng)用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動畫框架Perception-as-Control
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：11562字

本文介紹了一種名為Perception-as-Control的圖像動畫框架，該框架能夠?qū)崿F(xiàn)對攝像機和物體的精細化協(xié)同控制，突破了現(xiàn)有方法在控制粒度和三維感知方面的不足，從而支持多種相關(guān)的應(yīng)用，例如生成、克隆、遷移和編輯。

現(xiàn)有的圖像動畫方法在控制攝像機和物體時面臨以下挑戰(zhàn)：

為了解決上述問題，本文提出了Perception-as-Control框架，其核心思想是利用3D感知表示來促進精細化的協(xié)同控制。該表示能夠被修改和感知，從而將用戶意圖轉(zhuǎn)化為空間對齊的控制信號。

該框架主要包含以下幾個關(guān)鍵技術(shù)：

3D感知表示：通過重構(gòu)3D場景，使用單位球體簡化動態(tài)部分和靜態(tài)部分，生成反映和空間關(guān)系的感知結(jié)果。靜態(tài)部分用世界包絡(luò)體表示，動態(tài)部分用單位球體表示。
輕量化雙編碼器：分別對攝像機和物體的控制信號進行編碼，確保控制信號與參考圖像對齊，提高控制的靈活性。
擴散模型：利用基于U-Net的架構(gòu)，將外觀信息與信息結(jié)合，用于生成目標動畫。采用三階段訓練策略，平衡相機和物體控制，并實現(xiàn)精細化物體控制。
數(shù)據(jù)管道與訓練策略：自動化處理真實視頻數(shù)據(jù)，采用分階段訓練策略，支持多種相關(guān)任務(wù)。

Perception-as-Control框架取得了顯著的效果：

精細化控制：能夠?qū)崿F(xiàn)攝像機和物體的協(xié)同控制，避免控制沖突。
視覺一致性：通過3D感知表示，確保信號與生成的動畫幀空間對齊，提升動畫質(zhì)量。
任務(wù)統(tǒng)一性：支持各種相關(guān)的視頻生成任務(wù)，具備高度的靈活性和適應(yīng)性。
性能優(yōu)越：實驗結(jié)果表明，該框架在多個任務(wù)中均優(yōu)于現(xiàn)有方法，實現(xiàn)更精確的控制與更高質(zhì)量的動畫效果。

實驗使用了RealEstate10K和WebVid10M數(shù)據(jù)集進行訓練。結(jié)果表明，Perception-as-Control能夠有效地進行僅相機控制、僅物體控制以及協(xié)同控制。此外，該框架還能夠應(yīng)用于生成、克隆、遷移和編輯等多種任務(wù)。

Perception-as-Control框架提出了一種用于協(xié)同控制的精細化可控圖像動畫方法，通過3D感知表示實現(xiàn)了對攝像機和物體的精確且靈活的控制，并支持多種相關(guān)的應(yīng)用，為圖像動畫領(lǐng)域帶來了顯著的進步。

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，專注于生成式人工智能。

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論...