EMO(Emote Portrait Alive)是阿里巴巴集團(tuán)智能計(jì)算研究院研發(fā)的一種創(chuàng)新框架,它能通過單一的參考圖像和音頻輸入,生成富有表現(xiàn)力的面部動畫視頻。該系統(tǒng)的核心在于其音頻驅(qū)動的能力,能夠捕捉人類面部的細(xì)微表情變化,實(shí)現(xiàn)高度真實(shí)的動態(tài)展示。
EMO是什么
EMO(Emote Portrait Alive)是一個由阿里巴巴集團(tuán)智能計(jì)算研究院的研究團(tuán)隊(duì)開發(fā)的音頻驅(qū)動AI肖像視頻生成框架。用戶只需提供一張參考圖像和一段音頻,就能自動生成具有豐富面部表情和多樣頭部姿勢的視頻。它能夠精準(zhǔn)捕捉人類表情的微妙變化和個體面部風(fēng)格的多樣性,從而生成高度逼真且富有表現(xiàn)力的動畫效果。

EMO的官網(wǎng)入口
- 官方項(xiàng)目主頁:https://humanaigc.github.io/emote-portrait-alive/
- arXiv研究論文:https://arxiv.org/abs/2402.17485
- GitHub:https://github.com/HumanAIGC/EMO(模型和源碼即將開源)

EMO的主要特點(diǎn)
- 音頻驅(qū)動的視頻生成:EMO根據(jù)輸入的音頻信號(如講話或歌唱)直接生成視頻,無需依賴預(yù)錄制的片段或3D模型。
- 高表現(xiàn)力和逼真度:生成的視頻展現(xiàn)出極高的表現(xiàn)力,能夠捕捉到人類面部表情的細(xì)微變化,包括微表情和與音頻節(jié)奏相符的頭部動作。
- 無縫幀過渡:EMO確保視頻幀之間的轉(zhuǎn)換自然流暢,避免面部扭曲或抖動,從而提升視頻整體質(zhì)量。
- 身份保持:借助FrameEncoding模塊,EMO在視頻生成時保持角色身份一致性,確保角色外觀與輸入的參考圖像相符。
- 穩(wěn)定的控制機(jī)制:EMO引入速度控制器和面部區(qū)域控制器等機(jī)制,提高視頻生成過程中的穩(wěn)定性,避免崩潰等問題。
- 靈活的視頻時長:EMO能夠根據(jù)音頻長度生成任意時長的視頻,給予用戶更大的創(chuàng)作空間。
- 跨語言和跨風(fēng)格:EMO的訓(xùn)練數(shù)據(jù)涵蓋多種語言和風(fēng)格,包括中文和英文,能夠適應(yīng)各種文化和藝術(shù)風(fēng)格。
EMO的工作原理

- 輸入準(zhǔn)備:用戶需提供一張參考圖像(通常為目標(biāo)角色的靜態(tài)肖像)和對應(yīng)的音頻輸入(如講話或歌唱)。這些輸入將成為生成視頻的基礎(chǔ)。
- 特征提取:通過ReferenceNet從參考圖像中提取特征,該網(wǎng)絡(luò)專注于提取輸入圖像中的詳細(xì)信息。
- 音頻處理:音頻輸入經(jīng)過預(yù)訓(xùn)練的音頻編碼器處理,以提取音頻特征,這些特征捕捉了語音的節(jié)奏、音調(diào)及發(fā)音等信息,驅(qū)動視頻中角色的面部表情和頭部動作。
- 擴(kuò)散過程:主網(wǎng)絡(luò)接收多幀噪聲作為輸入,并在每個時間步驟中去噪生成連續(xù)的視頻幀。此過程涉及Reference-Attention和Audio-Attention兩個主要機(jī)制,前者保持角色身份一致性,后者調(diào)節(jié)角色動作。
- 時間模塊:EMO使用時間模塊處理時間維度,以調(diào)整動作速度,確保連續(xù)幀之間的連貫性和一致性。
- 面部定位和速度控制:面部通過編碼面部邊界框區(qū)域,確保角色動作的穩(wěn)定性和可控性,而速度層則控制動作的速度和頻率。
- 訓(xùn)練策略:EMO的訓(xùn)練分為三個階段:圖像預(yù)訓(xùn)練、視頻訓(xùn)練和速度層集成,確保音頻對角色動作的驅(qū)動能力。
- 生成視頻:在推理階段,EMO利用DDIM采樣算法生成視頻片段,通過迭代去噪過程,最終生成與輸入音頻同步的肖像視頻。
應(yīng)用場景
EMO的應(yīng)用潛力廣泛,包括虛擬主播、動畫制作、社交媒體內(nèi)容創(chuàng)作以及教育領(lǐng)域的互動課程等。其音頻驅(qū)動的視頻生成能力使得用戶可以輕松創(chuàng)建個性化的動態(tài)內(nèi)容,滿足不同領(lǐng)域的需求。
常見問題
- EMO支持哪些音頻格式? EMO支持多種常見音頻格式,包括MP3和WAV。確保音頻清晰度,以獲得最佳效果。
- 生成視頻的時間是多久? 視頻生成時間取決于音頻長度和系統(tǒng)性能,通常情況下,短音頻可以在幾分鐘內(nèi)生成視頻。
- 我可以使用自己的圖像嗎? 是的,用戶可以使用任意圖像作為參考,只要該圖像清晰且符合項(xiàng)目要求。
- EMO的輸出視頻質(zhì)量如何? EMO能夠生成高質(zhì)量、流暢的視頻,細(xì)節(jié)表現(xiàn)優(yōu)異,適合多種應(yīng)用場景。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號