Audio2Photoreal官網(wǎng)
從音頻生成全身逼真的虛擬人物形象。它可以從多人對話中語音中生成與對話相對應(yīng)的逼真面部表情、完整身體和手勢動作。
網(wǎng)站提供:Ai工具箱,Ai開源項目,Audio,Photo,Audio2Photoreal。

Audio2Photoreal簡介
Code and dataset for photorealistic Codec Avatars driven from audio – GitHub – facebookresearch/audio2photoreal: Code and dataset for photorealistic Codec Avatars driven from audio
Meta ai最近發(fā)布了一項炸裂的技術(shù):Audio2PhotoReal,從音頻生成全身逼真的虛擬人物形象。它可以從多人對話中語音中生成與對話相對應(yīng)的逼真面部表情、完整身體和手勢動作。
這些生成的虛擬人物不僅在視覺上很逼真,而且能夠準(zhǔn)確地反映出對話中的手勢和表情細(xì)節(jié),如指點(diǎn)、手腕抖動、聳肩、微笑、嘲笑等。

Audio2PhotoReal工作原理:
Audio2PhotoReal結(jié)合了向量量化的樣本多樣性和通過擴(kuò)散獲得的高頻細(xì)節(jié)的優(yōu)勢,以生成更具動態(tài)性和表現(xiàn)力的動作。
1、數(shù)據(jù)集捕獲:首先捕獲了一組豐富的雙人對話數(shù)據(jù)集,這些數(shù)據(jù)集允許進(jìn)行逼真的重建。
2、模型構(gòu)建:項目構(gòu)建了一個包括面部模型、引導(dǎo)姿勢預(yù)測器和身體模型的復(fù)合模型。
3、面部生成:使用預(yù)訓(xùn)練的唇部回歸器處理音頻,提取面部相關(guān)的特征。
利用條件擴(kuò)散模型根據(jù)這些特征生成面部。
4、身體生成:以音頻為輸入,自回歸地輸出每秒1幀的向量量化(VQ)引導(dǎo)姿勢。將音頻和引導(dǎo)姿勢一起輸入到擴(kuò)散模型中,以30幀/秒的速度生成高頻身體。
5、虛擬人物渲染:將生成的面部和身體傳入訓(xùn)練好的虛擬人物渲染器,生成逼真的虛擬人物。
6、結(jié)果展示:最終展示的是根據(jù)音頻生成的全身逼真虛擬人物,這些虛擬人物能夠表現(xiàn)出對話中的細(xì)微表情和手勢動作。

Audio2Photoreal項目地址:https://github.com/facebookresearch/audio2photoreal/
Audio2Photoreal論文地址:https://arxiv.org/pdf/2401.01885.pdf
Audio2Photoreal官網(wǎng)入口網(wǎng)址
https://github.com/facebookresearch/audio2photoreal/
OpenI小編發(fā)現(xiàn)Audio2Photoreal網(wǎng)站非常受用戶歡迎,請訪問Audio2Photoreal網(wǎng)址入口試用。
數(shù)據(jù)評估
本站OpenI提供的Audio2Photoreal都來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實(shí)際控制,在2024年 1月 5日 上午9:05收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。



粵公網(wǎng)安備 44011502001135號