InfinityHuman – 字節(jié)聯(lián)合浙大推出的AI數(shù)字人視頻生成模型
InfinityHuman:字節(jié)跳動與浙江大學(xué)攜手打造的商用級長時(shí)序音頻驅(qū)動人物視頻生成新標(biāo)桿,為AI數(shù)字人實(shí)用化開啟全新可能。
InfinityHuman 是一款由字節(jié)跳動與浙江大合研發(fā)的尖端技術(shù)模型,專為生成高質(zhì)量、長時(shí)序的音頻驅(qū)動人物視頻而設(shè)計(jì),標(biāo)志著AI數(shù)字人技術(shù)邁向了商業(yè)化應(yīng)用的新紀(jì)元。該模型巧妙運(yùn)用 coarse-to-fine 架構(gòu),首先生成低分辨率的動作表達(dá),隨后通過姿態(tài)引導(dǎo)細(xì)化器逐步精煉,最終輸出高分辨率的逼真視頻。為解決現(xiàn)有技術(shù)在手部動作上的痛點(diǎn),InfinityHuman 特別引入了手部專屬獎勵機(jī)制,顯著提升了手部動作的自然度和與語音的同步性,有效克服了身份漂移、畫面不穩(wěn)及手部動作僵硬等常見難題。在 EMTD 和 HDTF 數(shù)據(jù)集的評測中,InfinityHuman 均展現(xiàn)出卓越的性能,為虛擬主播、在線教育、客戶服務(wù)等眾多領(lǐng)域帶來了前所未有的應(yīng)用潛力。
InfinityHuman 的核心優(yōu)勢
- 時(shí)長與分辨率的突破:能夠生成細(xì)節(jié)豐富、時(shí)長穩(wěn)定的高分辨率人體動畫視頻,確保視覺連貫性。
- 靈動自然的手部演繹:通過精細(xì)的手部動作優(yōu)化,實(shí)現(xiàn)逼真、精準(zhǔn)且與語音完美契合的手部姿態(tài)。
- 堅(jiān)若磐石的身份穩(wěn)定性:借助姿態(tài)引導(dǎo)細(xì)化器和首幀視覺錨點(diǎn),有效抑制累積誤差,確保人物身份在長時(shí)間的視頻中始終如一。
- 唇齒間的精準(zhǔn)同步:實(shí)現(xiàn)人物口型與音頻的毫秒級同步,極大地增強(qiáng)了視頻的真實(shí)感。
- 百變風(fēng)格的個(gè)性化呈現(xiàn):支持生成多樣化的角色風(fēng)格,滿足不同應(yīng)用場景的個(gè)性化需求。
InfinityHuman 的技術(shù)內(nèi)核
- 音頻驅(qū)動的動作基石:模型首先解析音頻信號,生成與語音節(jié)奏高度匹配的低分辨率動作序列(pose),為后續(xù)的高精度渲染奠定基礎(chǔ),確保整體的韻律感和口型準(zhǔn)確性。
- 姿態(tài)引導(dǎo)的精細(xì)雕琢:在此基礎(chǔ)上,姿態(tài)引導(dǎo)細(xì)化器發(fā)揮關(guān)鍵作用,將低分辨率的動作“藍(lán)圖”轉(zhuǎn)化為細(xì)膩逼真的高分辨率視頻。
- 穩(wěn)定的姿態(tài)序列支撐:姿態(tài)序列作為中間橋梁,有效抵抗時(shí)間維度上的信息衰減,維持畫面的視覺統(tǒng)一性。
- 首幀的視覺導(dǎo)航:將視頻的首幀作為視覺基準(zhǔn),通過持續(xù)的參照與校正,確保人物身份和畫面細(xì)節(jié)的長期準(zhǔn)確性,最大程度地減少誤差累積。
- 手部動作的專屬優(yōu)化:依托海量高質(zhì)量手部動作數(shù)據(jù)訓(xùn)練,深度融合手部專屬獎勵機(jī)制,顯著提升了手部動作的生動性與語音的同步精度。
- 多模態(tài)信息的融合之道:模型能夠整合參考圖像、文本描述以及音頻等多維度信息,實(shí)現(xiàn)視覺聽覺的雙重協(xié)調(diào)與自然流暢。
探索 InfinityHuman 的無限可能
- 虛擬主播的革新:賦予虛擬主播更生動、自然的播報(bào)與主持表現(xiàn),提升觀眾沉浸感,同時(shí)顯著降低運(yùn)營成本。
- 互動式在線教育:AI教師在講解過程中輔以恰當(dāng)?shù)氖謩荩菇虒W(xué)內(nèi)容更具象化,有效激發(fā)學(xué)生的學(xué)習(xí)熱情與專注力。
- 智慧型客服體驗(yàn):數(shù)字客服在交流時(shí)能自然地運(yùn)用肢體語言,打破傳統(tǒng)客服的刻板印象,顯著提升客戶滿意度。
- 影視制作的效率飛躍:為電影、電視劇等內(nèi)容創(chuàng)作提供高效的人物動畫生成工具,大幅縮減人工繪制和后期修復(fù)的工作量。
- 沉浸式虛擬社交:在VR/AR環(huán)境中,為虛擬角色賦予逼真的動作與表情,為虛擬社交注入真實(shí)感與互動性,提升用戶體驗(yàn)。
了解更多詳情,請?jiān)L問:
- 項(xiàng)目官網(wǎng):https://infinityhuman.github.io/
- arXiv 技術(shù)論文:https://arxiv.org/pdf/2508.20210
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號