微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數字人

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數字人
關鍵字：面部,視頻,頭部,模型,音頻
文章來源：新智元
內容字數：11653字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】想要做出一段能夠「以假亂真的人物說話視頻」的門檻到底低到什么程度了？僅需一張照片加一段音頻，就能生成一段堪稱真實到可怕的假視頻，以后法庭上視頻證據還有可信度嗎？在人物說話的過程中，每一個細微的動作和表情都可以表達情感，都能向觀眾傳達出無聲的信息，也是影響生成結果真實性的關鍵因素。
如果能夠根據特定面容來自動生成一段生動逼真的形象，將徹底改變人類與人工智能系統的交互形式，例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫療保健場景下的治療支持和社會互動等。
最近，微軟亞洲研究院的研究人員拋出了一個重磅VASA-1框架，利用視覺情感技巧（VAS，visual affective skills），只需要輸入一張肖像照片+一段語音音頻，即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻。論文鏈接：https://arxiv.org/pdf/2404.10667.pdf
項目主頁：https://www.microsoft.com/en-us/research/project/vasa-1/
下面為幾段一分鐘視頻演示。

原文鏈接：微軟「詐騙屆」王牌框架，真到可怕！一張照片+音頻即可生成數字人