微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強東還真”
AIGC動態(tài)歡迎閱讀
原標題:微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強東還真”
關(guān)鍵字:視頻,頭部,面部,表情,動作
文章來源:量子位
內(nèi)容字數(shù):4320字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAIAI偽造真人視頻,門檻再次降低。
微軟發(fā)布一張圖生成數(shù)字人技術(shù)VASA-1,網(wǎng)友看過直呼“炸裂級效果”,比“AI劉強東還真”。
話不多說,直接上一分鐘演示視頻:
做到以假亂真效果,不用針對特定人物訓(xùn)練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行。
比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。
或者讓素描人像念華強臺詞。
在項目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。
不同性別、年齡、種族的數(shù)字人,用著不同的口音在說話。
根據(jù)團隊在論文中的描述,VASA-1擁有如下特點:
唇形與語音的精準同步
這是最基本的,VASA-1在定量評估中也做到了頂尖水平。
豐富而自然的面部表情
不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協(xié)調(diào),避免顯得呆板。
人性化的頭部動作
說話時適當?shù)狞c頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。
總得來說,仔細看的話眼睛還有一些破綻,但已經(jīng)被網(wǎng)友評為“迄今為止最佳演示”。
然而更恐怖的是,整個系統(tǒng)推理速度還是實時級的。
生成512×512分辨率的視頻,使用一
原文鏈接:微軟炸裂級單圖生數(shù)字人,Sora同款思路,“比AI劉強東還真”
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...