HumanDiT – 浙大聯(lián)合字節(jié)推出的姿態(tài)引導(dǎo)人體視頻生成框架
HumanDiT是什么
HumanDiT 是由浙江大學(xué)與字節(jié)跳動(dòng)共同開發(fā)的一種高保真姿態(tài)引導(dǎo)人體視頻生成框架。該框架基于擴(kuò)散變換器(Diffusion Transformer,DiT),能夠在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而生成具有精細(xì)身體渲染的長序列人體視頻。HumanDiT 的最大優(yōu)勢在于其姿態(tài)引導(dǎo)機(jī)制,通過關(guān)鍵點(diǎn)擴(kuò)散變換器(Keypoint-DiT)生成后續(xù)姿態(tài)序列,確保視頻中人物動(dòng)作的自然流暢。同時(shí),它引入了前綴潛在參考策略,以在長序列中保持個(gè)性化特征。該框架支持多種視頻分辨率和可變序列長度,特別適合于長序列的視頻生成。同時(shí),基于姿態(tài)適配器的功能使得給定序列的姿態(tài)轉(zhuǎn)移更加精準(zhǔn),進(jìn)一步提高了姿態(tài)對齊的準(zhǔn)確性。

HumanDiT的主要功能
- 姿態(tài)引導(dǎo)的視頻生成:HumanDiT 利用關(guān)鍵點(diǎn)擴(kuò)散變換器(Keypoint-DiT)生成后續(xù)的姿態(tài)序列,確保視頻中人物動(dòng)作的一致性和自然性。
- 長序列視頻生成:支持多種分辨率和可變長度的序列,適合制作高質(zhì)量的長序列視頻。
- 個(gè)性化特征保持:通過前綴潛在參考策略,確保在長序列中保持獨(dú)特的個(gè)性化特征。
- 靈活的輸入與輸出:能夠從單張靜態(tài)圖像或現(xiàn)有視頻中繼續(xù)生成新的視頻,適用于多種實(shí)際應(yīng)用場景。
- 姿態(tài)適配與細(xì)化:通過姿態(tài)適配器實(shí)現(xiàn)給定序列的姿態(tài)轉(zhuǎn)移,利用姿態(tài)細(xì)化模塊提升面部和手部特征與參考圖像的對齊。
HumanDiT的技術(shù)原理
- 姿態(tài)引導(dǎo)與擴(kuò)散變換器:HumanDiT 通過姿態(tài)引導(dǎo)生成視頻,利用關(guān)鍵點(diǎn)擴(kuò)散變換器(Keypoint-DiT)在推理時(shí)生成后續(xù)的姿態(tài)序列,確保視頻中的人體動(dòng)作連貫自然,同時(shí)具備處理不同分辨率和序列長度的能力。
- 前綴潛在參考策略:為在長序列視頻生成中保持個(gè)性化特征,HumanDiT 引入了前綴潛在參考策略,該策略通過將視頻的第一幀作為無噪聲的前綴潛在向量,供模型在生成過程中參考,以保持視覺一致性。
- 姿態(tài)適配器與姿態(tài)細(xì)化模塊:HumanDiT 利用姿態(tài)適配器實(shí)現(xiàn)給定序列的姿態(tài)轉(zhuǎn)移,并通過姿態(tài)細(xì)化模塊進(jìn)一步優(yōu)化生成的姿態(tài)序列,提高面部和手部等細(xì)節(jié)的生成質(zhì)量,確保與參考圖像的精準(zhǔn)對齊。
- 大規(guī)模數(shù)據(jù)集訓(xùn)練:HumanDiT 在一個(gè)包含 14000 小時(shí)高質(zhì)量視頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,這些數(shù)據(jù)經(jīng)過結(jié)構(gòu)化處理,涵蓋多樣的人類動(dòng)作場景,使模型具備豐富的先驗(yàn),從而在推理過程中表現(xiàn)出卓越的泛化能力。
HumanDiT的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://agnjason.github.io/HumanDiT-page/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.04847
HumanDiT的應(yīng)用場景
- 虛擬人:HumanDiT 可用于生成虛擬人的動(dòng)態(tài)視頻,使其動(dòng)作更加自然流暢。在虛擬客服場景中,虛擬人能夠根據(jù)用戶的提問實(shí)時(shí)生成相應(yīng)的動(dòng)作和表情,提供更生動(dòng)、逼真的交互體驗(yàn)。
- 動(dòng)畫電影:HumanDiT 能夠生成高質(zhì)量的長序列人體視頻,適用于動(dòng)畫角色的動(dòng)作序列生成,幫助動(dòng)畫師快速創(chuàng)作高質(zhì)量的段,提升制作效率。
- 沉浸式體驗(yàn):HumanDiT 可用于構(gòu)建沉浸式體驗(yàn)中的虛擬角色和動(dòng)作。在沉浸式 VR 體驗(yàn)中,HumanDiT 能生成與場景匹配的人物動(dòng)作和表情,令參與者感受更加真實(shí)生動(dòng)的體驗(yàn)。
- 視頻生成與續(xù)寫:能夠從單張圖像中生成視頻,或從現(xiàn)有視頻中繼續(xù)生成內(nèi)容。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號