VLOGGER是一款由谷歌研究團(tuán)隊(duì)開(kāi)發(fā)的多模態(tài)擴(kuò)散模型,旨在從單一圖像和音頻樣本生成真實(shí)而連貫的人像動(dòng)態(tài)視頻。它的核心功能在于通過(guò)人工智能技術(shù),將靜態(tài)圖片轉(zhuǎn)化為動(dòng)態(tài)視頻角色,同時(shí)保持角色的逼真外觀。此外,VLOGGER能夠根據(jù)音頻控制角色的動(dòng)作,包括面部表情、嘴唇同步、頭部、目光、眨眼以及身體和手部的手勢(shì),從而將視頻合成的效果提升到新的高度。
VLOGGER是什么
VLOGGER是一個(gè)由谷歌研究團(tuán)隊(duì)開(kāi)發(fā)的多模態(tài)擴(kuò)散模型,專門從單一輸入圖像和音頻樣本生成逼真的人像動(dòng)態(tài)視頻。該模型的主要特性在于利用人工智能技術(shù),將一張靜態(tài)圖片變成一個(gè)動(dòng)態(tài)視頻角色,并保持人物的真實(shí)外觀。同時(shí),VLOGGER能夠根據(jù)音頻的內(nèi)容來(lái)控制角色的動(dòng)作,不僅限于面部表情和嘴唇的同步,還涵蓋頭部、目光、眨眼以及上身和手部的手勢(shì),極大地提升了音頻驅(qū)動(dòng)的視頻合成效果。

VLOGGER的官網(wǎng)入口
- 官方項(xiàng)目主頁(yè):https://enriccorona.github.io/vlogger/
- arXiv研究論文:https://arxiv.org/abs/2403.08764v1
VLOGGER的主要功能
- 基于圖像和音頻生成視頻:用戶只需提供一張人物圖像和一段音頻,VLOGGER便能生成一個(gè)視頻中的角色,其面部表情、嘴唇動(dòng)作與音頻內(nèi)容完美同步,展現(xiàn)出自然流暢的動(dòng)態(tài)效果。
- 豐富的多樣性和真實(shí)感:VLOGGER生成的視頻展現(xiàn)出高度的多樣性,能展示原始人物的不同動(dòng)作和表情,同時(shí)保持背景的一致性和視頻的真實(shí)感。
- 視頻編輯功能:VLOGGER還可以用于現(xiàn)有視頻的編輯,比如改變視頻中角色的表情,使其與原始視頻的未改變像素保持一致。
- 生成會(huì)說(shuō)話的動(dòng)態(tài)角色:即便沒(méi)有視頻中人物的原始素材,VLOGGER也能從一張輸入圖像和音頻生成逼真的說(shuō)話視頻。
- 視頻翻譯能力:VLOGGER能夠?qū)⒁环N語(yǔ)言的視頻轉(zhuǎn)換為另一種語(yǔ)言,通過(guò)編輯唇部和面部區(qū)域以匹配新的音頻,實(shí)現(xiàn)跨語(yǔ)言的視頻內(nèi)容適配。
VLOGGER的工作原理
VLOGGER的工作流程主要分為兩個(gè)階段,結(jié)合了音頻驅(qū)動(dòng)的生成和時(shí)間連貫的視頻生成。

第一階段:音頻驅(qū)動(dòng)的生成
- 音頻處理:VLOGGER首先接收一段音頻輸入,可能是語(yǔ)音或音樂(lè)。如果輸入是文本,系統(tǒng)會(huì)通過(guò)文本到語(yǔ)音(TTS)模型將其轉(zhuǎn)換為音頻波形。
- 3D預(yù)測(cè):接下來(lái),系統(tǒng)使用基于變換器(Transformer)架構(gòu)的網(wǎng)絡(luò)處理音頻輸入。該網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,能夠預(yù)測(cè)與音頻同步的3D面部表情和身體姿勢(shì),并利用多步注意力層捕捉音頻的時(shí)間特征,生成一系列3D姿勢(shì)參數(shù)。
- 生成控制表示:網(wǎng)絡(luò)輸出一系列預(yù)測(cè)的面部表情(θe i)和身體姿勢(shì)的殘差(?θb i),這些參數(shù)用于生成控制視頻生成過(guò)程的2D表示。
第二階段:時(shí)間連貫的視頻生成
- 視頻生成模型:VLOGGER的第二個(gè)階段是一個(gè)時(shí)間擴(kuò)散模型,它接收第一階段生成的3D控制和一張參考圖像(即輸入的單一人物圖像)。
- 條件化視頻生成:視頻生成模型是一個(gè)基于擴(kuò)散的圖像到圖像翻譯模型,利用預(yù)測(cè)的2D控制生成一系列幀,依據(jù)輸入的音頻和3D參數(shù)進(jìn)行動(dòng)畫處理。
- 超分辨率提升:為了提高視頻質(zhì)量,VLOGGER還包括一個(gè)超分辨率擴(kuò)散模型,將基礎(chǔ)視頻的分辨率從128×128提升到更高的分辨率,如256×256或512×512。
- 時(shí)間延展技術(shù):VLOGGER采用時(shí)間延展(temporal outpainting)技術(shù)生成任意長(zhǎng)度的視頻,首先生成一定數(shù)量的幀,然后基于前一幀的信息迭代生成新的幀,從而擴(kuò)展視頻的長(zhǎng)度。
數(shù)據(jù)集和訓(xùn)練過(guò)程
- VLOGGER在一個(gè)名為MENTOR的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含2200個(gè)小時(shí)和800000個(gè)身份,涵蓋了大量身份和動(dòng)態(tài)手勢(shì)。訓(xùn)練過(guò)程中,模型學(xué)習(xí)如何根據(jù)3D姿勢(shì)參數(shù)和輸入圖像生成連貫的、高質(zhì)量的視頻序列。
應(yīng)用場(chǎng)景
VLOGGER可以廣泛應(yīng)用于社交媒體內(nèi)容創(chuàng)作、在線教育、虛擬會(huì)議、游戲開(kāi)發(fā)以及影視制作等領(lǐng)域,為用戶提供更加生動(dòng)和有趣的視覺(jué)體驗(yàn)。
常見(jiàn)問(wèn)題
Q1: VLOGGER支持哪些輸入格式?
A1: VLOGGER支持單張靜態(tài)圖像和音頻文件作為輸入,音頻可以是語(yǔ)音或音樂(lè)。
Q2: 生成的視頻質(zhì)量如何?
A2: VLOGGER生成的視頻具有高真實(shí)感和多樣性,能夠展示豐富的表情和動(dòng)作。
Q3: VLOGGER是否可以用于視頻編輯?
A3: 是的,VLOGGER可以用于編輯現(xiàn)有視頻,改變角色的表情等。

粵公網(wǎng)安備 44011502001135號(hào)