微軟炸裂級單圖生數字人，Sora同款思路，“比AI劉強東還真”

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：微軟炸裂級單圖生數字人，Sora同款思路，“比AI劉強東還真”
關鍵字：視頻,頭部,面部,表情,動作
文章來源：量子位
內容字數：4320字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAIAI偽造真人視頻，門檻再次降低。
微軟發布一張圖生成數字人技術VASA-1，網友看過直呼“炸裂級效果”，比“AI劉強東還真”。
話不多說，直接上一分鐘演示視頻：
做到以假亂真效果，不用針對特定人物訓練，只要上傳一張人臉圖片、一段音頻，哪怕不是真人也行。
比如可以讓蒙娜麗莎唱Rap，模仿安妮海瑟薇即興吐槽狗仔隊名場面。
或者讓素描人像念華強臺詞。
在項目主頁還有更多1分鐘視頻，以及更更多15秒視頻可看。
不同性別、年齡、種族的數字人，用著不同的口音在說話。
根據團隊在論文中的描述，VASA-1擁有如下特點：
唇形與語音的精準同步
這是最基本的，VASA-1在定量評估中也做到了頂尖水平。
豐富而自然的面部表情
不光做到讓照片“開口說話”，眉毛、眼神、微表情等也跟著協調，避免顯得呆板。
人性化的頭部動作
說話時適當的點頭、搖頭、歪頭等動作，能讓人物看起來更加鮮活、更有說服力。
總得來說，仔細看的話眼睛還有一些破綻，但已經被網友評為“迄今為止最佳演示”。
然而更恐怖的是，整個系統推理速度還是實時級的。
生成512×512分辨率的視頻，使用一