HumanDiT

HumanDiT – 浙大聯合字節推出的姿態引導人體視頻生成框架

HumanDiT是什么

HumanDiT 是由浙江大學與字節跳動共同開發的一種高保真姿態引導人體視頻生成框架。該框架基于擴散變換器（Diffusion Transformer，DiT），能夠在大規模數據集上進行訓練，從而生成具有精細身體渲染的長序列人體視頻。HumanDiT 的最大優勢在于其姿態引導機制，通過關鍵點擴散變換器（Keypoint-DiT）生成后續姿態序列，確保視頻中人物動作的自然流暢。同時，它引入了前綴潛在參考策略，以在長序列中保持個性化特征。該框架支持多種視頻分辨率和可變序列長度，特別適合于長序列的視頻生成。同時，基于姿態適配器的功能使得給定序列的姿態轉移更加精準，進一步提高了姿態對齊的準確性。

HumanDiT

HumanDiT的主要功能

姿態引導的視頻生成：HumanDiT 利用關鍵點擴散變換器（Keypoint-DiT）生成后續的姿態序列，確保視頻中人物動作的一致性和自然性。
長序列視頻生成：支持多種分辨率和可變長度的序列，適合制作高質量的長序列視頻。
個性化特征保持：通過前綴潛在參考策略，確保在長序列中保持獨特的個性化特征。
靈活的輸入與輸出：能夠從單張靜態圖像或現有視頻中繼續生成新的視頻，適用于多種實際應用場景。
姿態適配與細化：通過姿態適配器實現給定序列的姿態轉移，利用姿態細化模塊提升面部和手部特征與參考圖像的對齊。

HumanDiT的技術原理

姿態引導與擴散變換器：HumanDiT 通過姿態引導生成視頻，利用關鍵點擴散變換器（Keypoint-DiT）在推理時生成后續的姿態序列，確保視頻中的人體動作連貫自然，同時具備處理不同分辨率和序列長度的能力。
前綴潛在參考策略：為在長序列視頻生成中保持個性化特征，HumanDiT 引入了前綴潛在參考策略，該策略通過將視頻的第一幀作為無噪聲的前綴潛在向量，供模型在生成過程中參考，以保持視覺一致性。
姿態適配器與姿態細化模塊：HumanDiT 利用姿態適配器實現給定序列的姿態轉移，并通過姿態細化模塊進一步優化生成的姿態序列，提高面部和手部等細節的生成質量，確保與參考圖像的精準對齊。
大規模數據集訓練：HumanDiT 在一個包含 14000 小時高質量視頻的大型數據集上進行訓練，這些數據經過結構化處理，涵蓋多樣的人類動作場景，使模型具備豐富的先驗，從而在推理過程中表現出卓越的泛化能力。

HumanDiT的項目地址

項目官網：https://agnjason.github.io/HumanDiT-page/
arXiv技術論文：https://arxiv.org/pdf/2502.04847

HumanDiT的應用場景

虛擬人：HumanDiT 可用于生成虛擬人的動態視頻，使其動作更加自然流暢。在虛擬客服場景中，虛擬人能夠根據用戶的提問實時生成相應的動作和表情，提供更生動、逼真的交互體驗。
動畫電影：HumanDiT 能夠生成高質量的長序列人體視頻，適用于動畫角色的動作序列生成，幫助動畫師快速創作高質量的段，提升制作效率。
沉浸式體驗：HumanDiT 可用于構建沉浸式體驗中的虛擬角色和動作。在沉浸式 VR 體驗中，HumanDiT 能生成與場景匹配的人物動作和表情，令參與者感受更加真實生動的體驗。
視頻生成與續寫：能夠從單張圖像中生成視頻，或從現有視頻中繼續生成內容。

閱讀原文