国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<cite id="6eiy2"></cite>

TANGO

AI工具1年前 (2024)發(fā)布 AI工具集

TANGO 是一款由東京大學(xué)和 CyberAgent AI Lab 聯(lián)合開發(fā)的開源框架，致力于生成與目標(biāo)語音完美同步的全身手勢視頻。借助分層音頻嵌入技術(shù)和擴散插值網(wǎng)絡(luò)，TANGO 能夠?qū)⒛繕?biāo)語音與參考視頻庫中的動作精準匹配，從而打造出高保真、動作同步的視頻內(nèi)容。這項技術(shù)的突破顯著降低了視頻制作成本，廣泛應(yīng)用于新聞播報、虛擬人解說及虛擬 YouTube 內(nèi)容創(chuàng)作等領(lǐng)域，為用戶提供了高效、經(jīng)濟的解決方案。

TANGO是什么

TANGO 是一個創(chuàng)新的開源框架，由東京大學(xué)與 CyberAgent AI Lab 共同推出，專注于生成與目標(biāo)語音同步的全身手勢視頻。其核心技術(shù)包括分層音頻嵌入和擴散插值網(wǎng)絡(luò)，旨在確保生成的視頻具有高保真度和自然流暢的動作表現(xiàn)。通過這一技術(shù)，用戶能夠在視頻制作中實現(xiàn)高效與經(jīng)濟的雙重目標(biāo)，覆蓋新聞播報、虛擬人解說及虛擬 YouTube 內(nèi)容創(chuàng)作等多個領(lǐng)域。

TANGO

TANGO的主要功能

全身手勢生成：根據(jù)目標(biāo)語音音頻生成與之同步的全身手勢視頻。
高保真度視頻制作：確保生成的視頻畫面清晰，動作自然且與語音內(nèi)容精確對應(yīng)。
音視頻跨模態(tài)對齊：利用分層音頻嵌入技術(shù)，實現(xiàn)音頻信號與視頻動作之間的精準匹配。
優(yōu)質(zhì)過渡幀生成：通過擴散插值網(wǎng)絡(luò)生成高質(zhì)量的過渡幀，確保視頻中的動作流暢連貫。
保持外觀一致性：在生成的視頻中確保人物外觀和背景與參考視頻保持一致，避免視覺上的不協(xié)調(diào)。

TANGO的技術(shù)原理

分層音頻嵌入（AuMoCLIP）：利用隱式層次化的音頻-動作聯(lián)合嵌入，在編碼音頻和動作數(shù)據(jù)時進行對比學(xué)習(xí)，將二者映射到一個共同的潛在空間中，從而實現(xiàn)精準的動作檢索。
擴散插值網(wǎng)絡(luò)（ACInterp）：基于現(xiàn)有的視頻生成擴散模型，生成高質(zhì)量的過渡幀，并通過參考模塊和背景流保持生成視頻與參考視頻的外觀一致性，有效消除模糊和重影等偽影。
動作圖檢索方法：采用學(xué)習(xí)驅(qū)動的方式，智能檢索與目標(biāo)語音音頻匹配的動作路徑，能更好地處理不同說話者的動作與音頻不同步的情況。
圖結(jié)構(gòu)：通過有向圖結(jié)構(gòu)表示視頻幀（節(jié)點）及其有效轉(zhuǎn)換（邊），系統(tǒng)提取時間特征以檢索視頻播放路徑的子集，必要時利用ACInterp生成平滑的過渡幀。