微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
關(guān)鍵字:面部,視頻,頭部,模型,音頻
文章來源:新智元
內(nèi)容字?jǐn)?shù):11653字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】想要做出一段能夠「以假亂真的人物說話視頻」的門檻到底低到什么程度了??jī)H需一張照片加一段音頻,就能生成一段堪稱真實(shí)到可怕的假視頻,以后法庭上視頻證據(jù)還有可信度嗎?在人物說話的過程中,每一個(gè)細(xì)微的動(dòng)作和表情都可以表達(dá)情感,都能向觀眾傳達(dá)出無聲的信息,也是影響生成結(jié)果真實(shí)性的關(guān)鍵因素。
如果能夠根據(jù)特定面容來自動(dòng)生成一段生動(dòng)逼真的形象,將徹底改變?nèi)祟惻c人工智能系統(tǒng)的交互形式,例如改善有障礙患者的交流方式、增強(qiáng)人工智能輔導(dǎo)教育的趣味性、醫(yī)療保健場(chǎng)景下的治療支持和社會(huì)互動(dòng)等。
最近,微軟亞洲研究院的研究人員拋出了一個(gè)重磅VASA-1框架,利用視覺情感技巧(VAS,visual affective skills),只需要輸入一張肖像照片+一段語(yǔ)音音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻。論文鏈接:https://arxiv.org/pdf/2404.10667.pdf
項(xiàng)目主頁(yè):https://www.microsoft.com/en-us/research/project/vasa-1/
下面為幾段一分鐘視頻演示。
原文鏈接:微軟「詐騙屆」王牌框架,真到可怕!一張照片+音頻即可生成數(shù)字人
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。