AIGC動態歡迎閱讀
原標題:讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型視頻生成絕了
關鍵字:視頻,音頻,方法,面部,角色
文章來源:機器之心
內容字數:5512字
內容摘要:
機器之心報道
機器之心編輯部有了阿里的 EMO,AI 生成或真實的圖像「動起來說話或唱歌」變得更容易了。
最近,以 OpenAI Sora 為代表的文生視頻模型又火了起來。
而除了文本生成視頻之外,以人為中心的視頻合成也一直是研究的焦點,比如專注于說話人頭部(Talking Head)的視頻生成,它的目標是根據用戶提供的音頻片段來生成面部表情。
從技術上來看,生成表情需要捕獲說話人微妙和多樣化的面部動作,由此對此類視頻合成任務提出了重大挑戰。
傳統方法通常會對最終的視頻輸出施加限制,以簡化任務。比如,一些方法使用 3D 模型來限制面部關鍵點, 另一些方法則從原始視頻中提取頭部的序列以指導整體。這些限制雖然降低了視頻生成的復雜性,但也往往限制了最終面部表情的豐富度和自然度。
在阿里智能計算研究院近日的一篇論文中,研究者通過關注音頻提示和面部動作之間的動態和細微聯系,來增強說話人頭部視頻生成的真實度、自然度和表現力。
研究者發現,傳統方法往往無法捕捉完整范圍的說話人表情和不同說話人獨特的面部風格。基于此,他們提出了 EMO(全稱為 Emote Portrait Alive)框架,該
原文鏈接:讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型視頻生成絕了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...