Perception-as-Control – 阿里通義實驗室推出的圖像動畫框架
Perception-as-Control是什么
Perception-as-Control是阿里巴巴通義實驗室推出的一種先進圖像動畫框架,旨在根據(jù)用戶的需求實現(xiàn)對的精細控制。該框架通過構(gòu)建3D感知表示,將相機和物體的轉(zhuǎn)化為直觀且一致的視覺效果,利用感知結(jié)果作為控制信號,支持多種與相關(guān)的視頻合成任務。Perception-as-Control采用基于U-Net架構(gòu)的擴散模型,結(jié)合參考圖像的外觀信息與控制信號,生成可控的圖像動畫。此外,該框架實施了三階段訓練策略,以平衡相機與物體的控制,展現(xiàn)出卓越的表現(xiàn)。

Perception-as-Control的主要功能
- 細致的協(xié)同控制:實現(xiàn)相機與物體的協(xié)同控制,使用戶能夠以細致的方式調(diào)整動畫中的各個元素,從而精準地操控場景中的物體及相機視角的變化。
- 多樣化的相關(guān)視頻合成任務:支持多種相關(guān)的視頻合成任務,包括圖像基礎(chǔ)的生成、視頻克隆、轉(zhuǎn)移及編輯。
- 生成:根據(jù)用戶提供的參考圖像和2D軌跡生成動畫。
- 克隆:復刻源視頻中的相機和物體。
- 轉(zhuǎn)移:將源視頻中的局部遷移到參考圖像中不同位置和大小的對象上。
- 編輯:用戶提供分割掩碼,編輯掩碼內(nèi)的。
- 3D感知表示:通過構(gòu)建3D感知表示,將復雜的3D場景簡化為關(guān)鍵對象部分(以單位球表示)和世界包絡,實現(xiàn)直觀且一致的視覺效果。
Perception-as-Control的技術(shù)原理
- 3D感知表示:將3D場景簡化為關(guān)鍵對象部分(以單位球表示)和世界包絡,利用3D點跟蹤和視覺里程計技術(shù)捕捉局部物體與全局相機。
- 網(wǎng)絡架構(gòu):基于去噪U-Net架構(gòu),采用兩個輕量級編碼器分別編碼相機和物體的控制信號,避免RGB級別的干擾,并通過融合模塊合并編碼信號。
- 參考圖像注入:ReferenceNet將參考圖像的外觀信息注入生成過程,確保生成的視頻保留參考圖像的特定外觀。
- 三階段訓練策略:
- 第一階段:僅訓練相機編碼器,處理只包含相機的視頻剪輯。
- 第二階段:引入物體編碼器和融合模塊,處理包含相機和物體的視頻剪輯。
- 第三階段:基于稀疏單位球?qū)崿F(xiàn)精細的物體控制,自適應確定每個渲染點的控制范圍。
- 擴散模型:利用圖像擴散概率模型的基本原理,采用去噪U-Net架構(gòu)生成視頻,優(yōu)化目標為最小化預測噪聲與實際噪聲之間的差異,條件輸入包括參考圖像和控制信號。
Perception-as-Control的項目地址
- 項目官網(wǎng):https://chen-yingjie.github.io/projects/Perception-as-Control/
- GitHub倉庫:https://github.com/chen-yingjie/Perception-as-Control
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.05020
Perception-as-Control的應用場景
- 電影與視頻特效:生成具有特定的動畫場景,模仿現(xiàn)有視頻中的復雜,或?qū)⒁粋€角色的轉(zhuǎn)移到另一個角色上。
- 游戲開發(fā):為游戲角色和物體創(chuàng)造自然且可控的動畫,提升游戲的沉浸感與動態(tài)效果。
- 虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR):在VR環(huán)境中生成實時動畫反饋,增強用戶的互動體驗;在AR應用中將虛擬物體動畫與現(xiàn)實場景相結(jié)合。
- 廣告與營銷:生成引人注目的動態(tài)廣告和品牌推廣動畫,提升品牌形象和記憶點。
- 教育與培訓:生成科學實驗動畫和技能培訓模擬動畫,幫助學生和學員更好地理解和掌握知識與技能。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號