微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
AIGC動態(tài)歡迎閱讀
原標題:微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
關鍵字:面部,視頻,頭部,模型,音頻
文章來源:新智元
內容字數(shù):11653字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】想要做出一段能夠「以假亂真的人物說話視頻」的門檻到底低到什么程度了?僅需一張照片加一段音頻,就能生成一段堪稱真實到可怕的假視頻,以后法庭上視頻證據(jù)還有可信度嗎?在人物說話的過程中,每一個細微的動作和表情都可以表達情感,都能向觀眾傳達出無聲的信息,也是影響生成結果真實性的關鍵因素。
如果能夠根據(jù)特定面容來自動生成一段生動逼真的形象,將徹底改變人類與人工智能系統(tǒng)的交互形式,例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫(yī)療保健場景下的治療支持和社會互動等。
最近,微軟亞洲研究院的研究人員拋出了一個重磅VASA-1框架,利用視覺情感技巧(VAS,visual affective skills),只需要輸入一張肖像照片+一段語音音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻。論文鏈接:https://arxiv.org/pdf/2404.10667.pdf
項目主頁:https://www.microsoft.com/en-us/research/project/vasa-1/
下面為幾段一分鐘視頻演示。
原文鏈接:微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。