OmniHuman – 字節(jié)跳動(dòng)推出的單張照片生成全身動(dòng)態(tài)視頻生成框架
OmniHuman是什么
OmniHuman是字節(jié)跳動(dòng)推出的一種先進(jìn)的多模態(tài)視頻生成框架,能夠根據(jù)單一的人類圖像及信號(hào)(如音頻、視頻或兩者的結(jié)合)生成栩栩如生的人類視頻。該框架采用多模態(tài)條件混合訓(xùn)練策略,有效克服了以往方法因高質(zhì)量數(shù)據(jù)稀缺而造成的性能瓶頸,支持多種寬高比的圖像輸入(涵蓋肖像、半身和全身圖像),并能夠適應(yīng)多種場景需求。OmniHuman在歌唱、對(duì)話和手勢處理等多個(gè)領(lǐng)域表現(xiàn)優(yōu)異,支持多種視覺和音頻風(fēng)格,能夠利用音頻、視頻及其組合來生成高質(zhì)量的視頻內(nèi)容。
OmniHuman的主要功能
- 多模態(tài)驅(qū)動(dòng)的視頻生成:
- 支持音頻驅(qū)動(dòng)(如對(duì)話、唱歌)和姿勢驅(qū)動(dòng)(如手勢、動(dòng)作),并可融合兩者生成流暢自然的人類動(dòng)作視頻。
- 兼容多種輸入形式,包括面部特寫、半身像、全身像,適應(yīng)不同比例和風(fēng)格的圖像。
- 高逼真度與多樣化動(dòng)作:
- 生成的視頻在視覺效果上高度真實(shí),具備自然的面部表情、肢體動(dòng)作和流暢的動(dòng)態(tài)表現(xiàn)。
- 能夠處理復(fù)雜動(dòng)作和物體交互,例如在唱歌時(shí)演奏樂器、手勢與物體之間的自然互動(dòng)等。
- 靈活的視頻生成:
- 支持任意寬高比和時(shí)長的視頻生成,根據(jù)輸入信號(hào)生成不同長度的視頻片段。
- 兼容多種圖像風(fēng)格,包括寫實(shí)、卡通和風(fēng)格化的人物表現(xiàn)。
- 多場景適應(yīng)性:在各種環(huán)境中生成高質(zhì)量視頻,涵蓋不同的背景、光照條件和攝像角度。
OmniHuman的技術(shù)原理
- 混合條件訓(xùn)練策略:
- 多條件融合:將文本、音頻和姿勢等多種相關(guān)條件混合于訓(xùn)練過程中,以減少數(shù)據(jù)選擇的浪費(fèi),充分利用不同條件之間的互補(bǔ)性。
- 分階段訓(xùn)練:基于三階段的訓(xùn)練策略,逐步引入不同條件(文本、音頻、姿勢),根據(jù)條件的強(qiáng)弱調(diào)整訓(xùn)練比例,從而優(yōu)化模型的泛化能力。
- 訓(xùn)練原則:更強(qiáng)條件的任務(wù)需要使用較弱條件的任務(wù)及其對(duì)應(yīng)數(shù)據(jù),以擴(kuò)大數(shù)據(jù)規(guī)模。條件越強(qiáng),訓(xùn)練比例應(yīng)越低,以避免模型過度依賴于強(qiáng)條件。
- 擴(kuò)散變換器架構(gòu):
- 基于DiT的模型:OmniHuman基于先進(jìn)的視頻生成模型架構(gòu)DiT,利用因果3DVAE將視頻投影至潛在空間,并以流匹配作為訓(xùn)練目標(biāo)。
- 條件注入:
- 音頻條件:通過wav2vec模型提取音頻特征,并將其與視頻幀特征結(jié)合,生成音頻令牌,基于交叉注意力機(jī)制注入至模型中。
- 姿勢條件:利用姿勢引導(dǎo)器處理姿勢條件,將姿勢熱圖特征與視頻幀特征結(jié)合,生成姿勢令牌,連同噪聲潛在表示一起輸入模型。
- 文本條件:保留DiT架構(gòu)中的文本分支,用于描述生成視頻的內(nèi)容。
- 參考條件處理:采用創(chuàng)新的參考條件策略,通過修改3D旋轉(zhuǎn)位置嵌入,將參考圖像特征與視頻特征融合,無需額外的網(wǎng)絡(luò)模塊。
- 推理策略:
- 分類器引導(dǎo)(CFG):在推理過程中,對(duì)音頻和文本條件應(yīng)用CFG策略,通過逐步降低CFG強(qiáng)度,平衡表達(dá)性與計(jì)算效率,減少生成視頻中的瑕疵。
- 長視頻生成:使用上一個(gè)視頻片段的最后幾幀作為幀,確保長視頻生成中的時(shí)間連貫性和身份一致性。
OmniHuman的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://omnihuman-lab.github.io/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.01061
OmniHuman的應(yīng)用場景
- 影視與娛樂:生成虛擬角色動(dòng)畫、虛擬主播和音樂視頻等,提升內(nèi)容創(chuàng)作的效率和視覺吸引力。
- 游戲開發(fā):為游戲角色和非玩家角色(NPC)生成自然動(dòng)作,增強(qiáng)游戲的沉浸感和互動(dòng)性。
- 教育與培訓(xùn):創(chuàng)建虛擬教師和模擬訓(xùn)練視頻,輔助語言學(xué)習(xí)與職業(yè)技能培訓(xùn)。
- 廣告與營銷:生成個(gè)性化廣告和品牌推廣視頻,提升用戶參與度和內(nèi)容吸引力。
- 社交媒體與內(nèi)容創(chuàng)作:幫助創(chuàng)作者快速生成高質(zhì)量短視頻,支持互動(dòng)視頻創(chuàng)作,增加內(nèi)容的趣味性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...