字節(jié)讓達(dá)芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個情感片段
AIGC動態(tài)歡迎閱讀
原標(biāo)題:字節(jié)讓達(dá)芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個情感片段
關(guān)鍵字:字節(jié)跳動,團(tuán)隊(duì),情感,音頻,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):2878字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAIAIGC在視頻生成領(lǐng)域展現(xiàn)出非凡的潛力。近期, 字節(jié)跳動智能創(chuàng)作團(tuán)隊(duì)和得克薩斯大學(xué)達(dá)拉斯分校又提出了一項(xiàng)名為DREAM-Talk的基于擴(kuò)散模型框架:接收一段驅(qū)動的音頻序列、一張給定的人像圖片和一個情感風(fēng)格的例子(一段有情感的講話面部視頻)作為輸入,就能生成一段逼真的、嘴唇同步的講話面部視頻,其中包含高質(zhì)量的情感表達(dá),連畫像也能繪聲繪色地進(jìn)行表演,還支持多個語種。
(以下結(jié)果包括真實(shí)人類圖像和由 AIGC 生成的圖像。)
DREAM-Talk 框架的流程如下:?
首先,將音頻映射到表情是一個一對多的問題,使得獲得動態(tài)和真實(shí)的表情變得困難。
其次,生成一系列3D臉部表情參數(shù)涉及許多問題,如連續(xù)性和多樣性。為了應(yīng)對這些挑戰(zhàn),團(tuán)隊(duì)提出了基于擴(kuò)散的模型,用于生成3D面部表情序列。以輸入的音頻、初始狀態(tài)和情感風(fēng)格作為條件,團(tuán)隊(duì)利用EmoDiff學(xué)習(xí)隨時(shí)間去噪3D表情,使用基于Transformer的架構(gòu)進(jìn)行序列建模。初始狀態(tài)對應(yīng)于第一幀中的表情,情感風(fēng)格由隨機(jī)選擇的表情片段定義,于輸入音頻。
從擴(kuò)散模型獲得動態(tài)情感表達(dá)后,團(tuán)隊(duì)觀察到擴(kuò)散網(wǎng)絡(luò)無意
原文鏈接:字節(jié)讓達(dá)芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個情感片段
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破