OmniHuman – 字節跳動推出的單張照片生成全身動態視頻生成框架
OmniHuman是什么
OmniHuman是字節跳動推出的一種先進的多模態視頻生成框架,能夠根據單一的人類圖像及信號(如音頻、視頻或兩者的結合)生成栩栩如生的人類視頻。該框架采用多模態條件混合訓練策略,有效克服了以往方法因高質量數據稀缺而造成的性能瓶頸,支持多種寬高比的圖像輸入(涵蓋肖像、半身和全身圖像),并能夠適應多種場景需求。OmniHuman在歌唱、對話和手勢處理等多個領域表現優異,支持多種視覺和音頻風格,能夠利用音頻、視頻及其組合來生成高質量的視頻內容。
OmniHuman的主要功能
- 多模態驅動的視頻生成:
- 支持音頻驅動(如對話、唱歌)和姿勢驅動(如手勢、動作),并可融合兩者生成流暢自然的人類動作視頻。
- 兼容多種輸入形式,包括面部特寫、半身像、全身像,適應不同比例和風格的圖像。
- 高逼真度與多樣化動作:
- 生成的視頻在視覺效果上高度真實,具備自然的面部表情、肢體動作和流暢的動態表現。
- 能夠處理復雜動作和物體交互,例如在唱歌時演奏樂器、手勢與物體之間的自然互動等。
- 靈活的視頻生成:
- 支持任意寬高比和時長的視頻生成,根據輸入信號生成不同長度的視頻片段。
- 兼容多種圖像風格,包括寫實、卡通和風格化的人物表現。
- 多場景適應性:在各種環境中生成高質量視頻,涵蓋不同的背景、光照條件和攝像角度。
OmniHuman的技術原理
- 混合條件訓練策略:
- 多條件融合:將文本、音頻和姿勢等多種相關條件混合于訓練過程中,以減少數據選擇的浪費,充分利用不同條件之間的互補性。
- 分階段訓練:基于三階段的訓練策略,逐步引入不同條件(文本、音頻、姿勢),根據條件的強弱調整訓練比例,從而優化模型的泛化能力。
- 訓練原則:更強條件的任務需要使用較弱條件的任務及其對應數據,以擴大數據規模。條件越強,訓練比例應越低,以避免模型過度依賴于強條件。
- 擴散變換器架構:
- 基于DiT的模型:OmniHuman基于先進的視頻生成模型架構DiT,利用因果3DVAE將視頻投影至潛在空間,并以流匹配作為訓練目標。
- 條件注入:
- 音頻條件:通過wav2vec模型提取音頻特征,并將其與視頻幀特征結合,生成音頻令牌,基于交叉注意力機制注入至模型中。
- 姿勢條件:利用姿勢引導器處理姿勢條件,將姿勢熱圖特征與視頻幀特征結合,生成姿勢令牌,連同噪聲潛在表示一起輸入模型。
- 文本條件:保留DiT架構中的文本分支,用于描述生成視頻的內容。
- 參考條件處理:采用創新的參考條件策略,通過修改3D旋轉位置嵌入,將參考圖像特征與視頻特征融合,無需額外的網絡模塊。
- 推理策略:
- 分類器引導(CFG):在推理過程中,對音頻和文本條件應用CFG策略,通過逐步降低CFG強度,平衡表達性與計算效率,減少生成視頻中的瑕疵。
- 長視頻生成:使用上一個視頻片段的最后幾幀作為幀,確保長視頻生成中的時間連貫性和身份一致性。
OmniHuman的項目地址
OmniHuman的應用場景
- 影視與娛樂:生成虛擬角色動畫、虛擬主播和音樂視頻等,提升內容創作的效率和視覺吸引力。
- 游戲開發:為游戲角色和非玩家角色(NPC)生成自然動作,增強游戲的沉浸感和互動性。
- 教育與培訓:創建虛擬教師和模擬訓練視頻,輔助語言學習與職業技能培訓。
- 廣告與營銷:生成個性化廣告和品牌推廣視頻,提升用戶參與度和內容吸引力。
- 社交媒體與內容創作:幫助創作者快速生成高質量短視頻,支持互動視頻創作,增加內容的趣味性。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...