TANGO 是一款由東京大學(xué)和 CyberAgent AI Lab 聯(lián)合開發(fā)的開源框架,致力于生成與目標(biāo)語音完美同步的全身手勢視頻。借助分層音頻嵌入技術(shù)和擴散插值網(wǎng)絡(luò),TANGO 能夠?qū)⒛繕?biāo)語音與參考視頻庫中的動作精準匹配,從而打造出高保真、動作同步的視頻內(nèi)容。這項技術(shù)的突破顯著降低了視頻制作成本,廣泛應(yīng)用于新聞播報、虛擬人解說及虛擬 YouTube 內(nèi)容創(chuàng)作等領(lǐng)域,為用戶提供了高效、經(jīng)濟的解決方案。
TANGO是什么
TANGO 是一個創(chuàng)新的開源框架,由東京大學(xué)與 CyberAgent AI Lab 共同推出,專注于生成與目標(biāo)語音同步的全身手勢視頻。其核心技術(shù)包括分層音頻嵌入和擴散插值網(wǎng)絡(luò),旨在確保生成的視頻具有高保真度和自然流暢的動作表現(xiàn)。通過這一技術(shù),用戶能夠在視頻制作中實現(xiàn)高效與經(jīng)濟的雙重目標(biāo),覆蓋新聞播報、虛擬人解說及虛擬 YouTube 內(nèi)容創(chuàng)作等多個領(lǐng)域。

TANGO的主要功能
- 全身手勢生成:根據(jù)目標(biāo)語音音頻生成與之同步的全身手勢視頻。
- 高保真度視頻制作:確保生成的視頻畫面清晰,動作自然且與語音內(nèi)容精確對應(yīng)。
- 音視頻跨模態(tài)對齊:利用分層音頻嵌入技術(shù),實現(xiàn)音頻信號與視頻動作之間的精準匹配。
- 優(yōu)質(zhì)過渡幀生成:通過擴散插值網(wǎng)絡(luò)生成高質(zhì)量的過渡幀,確保視頻中的動作流暢連貫。
- 保持外觀一致性:在生成的視頻中確保人物外觀和背景與參考視頻保持一致,避免視覺上的不協(xié)調(diào)。
TANGO的技術(shù)原理
- 分層音頻嵌入(AuMoCLIP):利用隱式層次化的音頻-動作聯(lián)合嵌入,在編碼音頻和動作數(shù)據(jù)時進行對比學(xué)習(xí),將二者映射到一個共同的潛在空間中,從而實現(xiàn)精準的動作檢索。
- 擴散插值網(wǎng)絡(luò)(ACInterp):基于現(xiàn)有的視頻生成擴散模型,生成高質(zhì)量的過渡幀,并通過參考模塊和背景流保持生成視頻與參考視頻的外觀一致性,有效消除模糊和重影等偽影。
- 動作圖檢索方法:采用學(xué)習(xí)驅(qū)動的方式,智能檢索與目標(biāo)語音音頻匹配的動作路徑,能更好地處理不同說話者的動作與音頻不同步的情況。
- 圖結(jié)構(gòu):通過有向圖結(jié)構(gòu)表示視頻幀(節(jié)點)及其有效轉(zhuǎn)換(邊),系統(tǒng)提取時間特征以檢索視頻播放路徑的子集,必要時利用ACInterp生成平滑的過渡幀。
TANGO的項目地址
- 項目官網(wǎng):pantomatrix.github.io/TANGO
- arXiv技術(shù)論文:https://arxiv.org/pdf/2410.04221
- 在線體驗Demo:https://huggingface.co/spaces/H-Liu1997/TANGO
TANGO的應(yīng)用場景
- 新聞播報:生成與新聞內(nèi)容同步的全身手勢視頻,提升播報的自然程度及觀眾的觀看體驗。
- 虛擬YouTuber:為虛擬YouTuber制作與語音同步的全身動作視頻,增強與粉絲的互動感。
- 在線教育:在教育內(nèi)容制作中,利用TANGO生成教師的全身手勢視頻,使遠程教學(xué)更加生動有效。
- 企業(yè)培訓(xùn):在企業(yè)培訓(xùn)視頻中添加與講解同步的手勢,提升學(xué)習(xí)材料的吸引力和信息傳遞的效率。
- 視頻會議:通過TANGO生成的手勢視頻提升視頻會議中的交流體驗,尤其在遠程協(xié)作時更為顯著。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號