FantasyID – 阿里聯(lián)合北郵大學推出的身份保持視頻生成框架
FantasyID是什么
FantasyID 是由阿里巴巴集團與北京郵電大合推出的創(chuàng)新身份保持視頻生成框架(IPT2V)。該系統(tǒng)基于增強的人臉知識,旨在生成高質(zhì)量且身份一致的視頻。FantasyID運用了擴散變換器(Diffusion Transformers)技術(shù),并結(jié)合3D面部幾何先驗知識,以確保在視頻合成過程中面部結(jié)構(gòu)的穩(wěn)定性和合理性。此外,F(xiàn)antasyID采用了多視角人臉增強策略,避免了簡單復制參考人臉的現(xiàn)象,提升了面部表情和頭部姿態(tài)的動態(tài)變化。通過可學習的分層感知注入機制,2D和3D特征被選擇性地融入到每一層的擴散模型中,從而實現(xiàn)身份保留與動態(tài)表現(xiàn)之間的平衡。
FantasyID的主要功能
- 身份保留:確保生成的視頻中人物的面部特征與輸入的參考圖像高度一致,即使在復雜的動作和表情變化中,身份相似性依然保持。
- 動態(tài)增強:豐富面部表情及頭部姿態(tài)的多樣性,避免生成視頻出現(xiàn)“復制粘貼”的現(xiàn)象。
- 高質(zhì)量視頻生成:通過結(jié)合3D面部幾何信息和2D視覺特征,生成結(jié)構(gòu)穩(wěn)定且細節(jié)豐富的視頻,同時保持視頻的時空連貫性。
- 無需微調(diào):在生成過程中,無需針對每個輸入圖像進行額外模型調(diào)整,從而實現(xiàn)高效、靈活的身份保留視頻生成,適應大規(guī)模應用需求。
FantasyID的技術(shù)原理
- 3D面部幾何先驗:基于DECA框架,從輸入的人臉圖像中提取3D面部結(jié)構(gòu)(如形狀點云),為視頻生成提供穩(wěn)定的幾何約束,確保動態(tài)變化中的面部結(jié)構(gòu)穩(wěn)定性。
- 多視角人臉增強:構(gòu)建多角度人臉集合,從不同視角采集人臉圖像,以增強模型對2D面部外觀特征的理解,提升動態(tài)表現(xiàn),避免生成視頻中的單一性。
- 特征融合:通過融合變換器將提取的2D視覺特征與3D幾何特征結(jié)合,生成綜合面部描述符,以指導視頻生成。
- 分層感知信號注入:針對擴散變換器的層次特性,設(shè)計可學習的分層感知機制,將融合特征有選擇地注入不同層次,平衡身份保留與動態(tài)表現(xiàn)。
- 擴散模型:基于擴散模型的生成框架,通過逐步去噪的過程,從噪聲中重建出符合文本描述和身份特征的視頻內(nèi)容。
FantasyID的項目地址
- 項目官網(wǎng):https://fantasy-amap.github.io/fantasy-id/
- GitHub倉庫:https://github.com/Fantasy-AMAP/fantasy-id
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.13995
FantasyID的應用場景
- 個性化虛擬形象:通過生成與用戶身份一致的虛擬形象,應用于虛擬社交、元宇宙和游戲等領(lǐng)域。
- 虛擬內(nèi)容創(chuàng)作:生成動態(tài)視頻內(nèi)容,支持影視、廣告及短視頻制作,降低創(chuàng)作成本。
- 虛擬客服與數(shù)字人:創(chuàng)建自然、逼真的數(shù)字人形象,用于在線客服和智能助手,提升用戶交互體驗。
- 虛擬試妝與試衣:結(jié)合電子商務和美容行業(yè),生成試妝或試衣的動態(tài)視頻,優(yōu)化購物體驗。
- 互動式教育:生成教師或培訓師的動態(tài)視頻,用于在線課程和模擬場景,增強教學效果。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...