OmniHuman

OmniHuman – 字節(jié)跳動(dòng)推出的單張照片生成全身動(dòng)態(tài)視頻生成框架

OmniHuman是什么

OmniHuman是字節(jié)跳動(dòng)推出的一種先進(jìn)的多模態(tài)視頻生成框架，能夠根據(jù)單一的人類圖像及信號(hào)（如音頻、視頻或兩者的結(jié)合）生成栩栩如生的人類視頻。該框架采用多模態(tài)條件混合訓(xùn)練策略，有效克服了以往方法因高質(zhì)量數(shù)據(jù)稀缺而造成的性能瓶頸，支持多種寬高比的圖像輸入（涵蓋肖像、半身和全身圖像），并能夠適應(yīng)多種場景需求。OmniHuman在歌唱、對(duì)話和手勢處理等多個(gè)領(lǐng)域表現(xiàn)優(yōu)異，支持多種視覺和音頻風(fēng)格，能夠利用音頻、視頻及其組合來生成高質(zhì)量的視頻內(nèi)容。

OmniHuman

OmniHuman的主要功能

多模態(tài)驅(qū)動(dòng)的視頻生成：
- 支持音頻驅(qū)動(dòng)（如對(duì)話、唱歌）和姿勢驅(qū)動(dòng)（如手勢、動(dòng)作），并可融合兩者生成流暢自然的人類動(dòng)作視頻。
- 兼容多種輸入形式，包括面部特寫、半身像、全身像，適應(yīng)不同比例和風(fēng)格的圖像。
高逼真度與多樣化動(dòng)作：
- 生成的視頻在視覺效果上高度真實(shí)，具備自然的面部表情、肢體動(dòng)作和流暢的動(dòng)態(tài)表現(xiàn)。
- 能夠處理復(fù)雜動(dòng)作和物體交互，例如在唱歌時(shí)演奏樂器、手勢與物體之間的自然互動(dòng)等。
靈活的視頻生成：
- 支持任意寬高比和時(shí)長的視頻生成，根據(jù)輸入信號(hào)生成不同長度的視頻片段。
- 兼容多種圖像風(fēng)格，包括寫實(shí)、卡通和風(fēng)格化的人物表現(xiàn)。
多場景適應(yīng)性：在各種環(huán)境中生成高質(zhì)量視頻，涵蓋不同的背景、光照條件和攝像角度。

OmniHuman的技術(shù)原理

混合條件訓(xùn)練策略：
- 多條件融合：將文本、音頻和姿勢等多種相關(guān)條件混合于訓(xùn)練過程中，以減少數(shù)據(jù)選擇的浪費(fèi)，充分利用不同條件之間的互補(bǔ)性。
- 分階段訓(xùn)練：基于三階段的訓(xùn)練策略，逐步引入不同條件（文本、音頻、姿勢），根據(jù)條件的強(qiáng)弱調(diào)整訓(xùn)練比例，從而優(yōu)化模型的泛化能力。
- 訓(xùn)練原則：更強(qiáng)條件的任務(wù)需要使用較弱條件的任務(wù)及其對(duì)應(yīng)數(shù)據(jù)，以擴(kuò)大數(shù)據(jù)規(guī)模。條件越強(qiáng)，訓(xùn)練比例應(yīng)越低，以避免模型過度依賴于強(qiáng)條件。
擴(kuò)散變換器架構(gòu)：
- 基于DiT的模型：OmniHuman基于先進(jìn)的視頻生成模型架構(gòu)DiT，利用因果3DVAE將視頻投影至潛在空間，并以流匹配作為訓(xùn)練目標(biāo)。
- 條件注入：
  - 音頻條件：通過wav2vec模型提取音頻特征，并將其與視頻幀特征結(jié)合，生成音頻令牌，基于交叉注意力機(jī)制注入至模型中。
  - 姿勢條件：利用姿勢引導(dǎo)器處理姿勢條件，將姿勢熱圖特征與視頻幀特征結(jié)合，生成姿勢令牌，連同噪聲潛在表示一起輸入模型。
  - 文本條件：保留DiT架構(gòu)中的文本分支，用于描述生成視頻的內(nèi)容。
- 參考條件處理：采用創(chuàng)新的參考條件策略，通過修改3D旋轉(zhuǎn)位置嵌入，將參考圖像特征與視頻特征融合，無需額外的網(wǎng)絡(luò)模塊。
- 推理策略：
  - 分類器引導(dǎo)（CFG）：在推理過程中，對(duì)音頻和文本條件應(yīng)用CFG策略，通過逐步降低CFG強(qiáng)度，平衡表達(dá)性與計(jì)算效率，減少生成視頻中的瑕疵。
  - 長視頻生成：使用上一個(gè)視頻片段的最后幾幀作為幀，確保長視頻生成中的時(shí)間連貫性和身份一致性。

OmniHuman的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://omnihuman-lab.github.io/
arXiv技術(shù)論文：https://arxiv.org/pdf/2502.01061

OmniHuman的應(yīng)用場景

影視與娛樂：生成虛擬角色動(dòng)畫、虛擬主播和音樂視頻等，提升內(nèi)容創(chuàng)作的效率和視覺吸引力。
游戲開發(fā)：為游戲角色和非玩家角色（NPC）生成自然動(dòng)作，增強(qiáng)游戲的沉浸感和互動(dòng)性。
教育與培訓(xùn)：創(chuàng)建虛擬教師和模擬訓(xùn)練視頻，輔助語言學(xué)習(xí)與職業(yè)技能培訓(xùn)。
廣告與營銷：生成個(gè)性化廣告和品牌推廣視頻，提升用戶參與度和內(nèi)容吸引力。
社交媒體與內(nèi)容創(chuàng)作：幫助創(chuàng)作者快速生成高質(zhì)量短視頻，支持互動(dòng)視頻創(chuàng)作，增加內(nèi)容的趣味性。

閱讀原文