阿里最新圖生視頻模型效果好得可比肩Sora,但0代碼“假”開源讓國內(nèi)友罵翻了天?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:阿里最新圖生視頻模型效果好得可比肩Sora,但0代碼“假”開源讓國內(nèi)友罵翻了天?
關(guān)鍵字:字節(jié)跳動,華為,阿里,模型,視頻
文章來源:AI前線
內(nèi)容字?jǐn)?shù):8407字
內(nèi)容摘要:
整理 | 凌敏、核子可樂國外有文生視頻的 Sora,國內(nèi)有圖生視頻的 EMO。 阿里開發(fā)出 AI 圖生視頻模型 EMO近日,阿里巴巴集團(tuán)智能計(jì)算研究院上線了一款 AI 圖生視頻模型 EMO(Emote Portrait Alive)。據(jù)悉,EMO 是一種富有表現(xiàn)力的音頻驅(qū)動型肖像視頻生成框架,用戶用戶只需要提供一張照片和一段任意音頻文件,EMO 即可生成具有豐富面部表情和多種頭部姿態(tài)的語音頭像視頻。此外,EMO 還可以根據(jù)輸入音頻的長度生成任意長度的視頻。
在阿里給出的示例中,奧黛麗·赫本深情吟唱:
小李子演唱超“燙嘴”Rap《哥斯拉》:
蒙娜麗莎聲情并茂地演講:
高啟強(qiáng)化身羅翔普法:
據(jù)了解,為了訓(xùn)練這套模型,阿里建立起一套龐大且多樣化的音頻視頻數(shù)據(jù)集,共收集了超過 250 小時(shí)的視頻與超過 1.5 億張圖像。這套龐大的數(shù)據(jù)集涵蓋廣泛內(nèi)容,包括演講、影視片段、歌唱表演,并涵蓋漢語、英語等多種語言。豐富多樣的語音和歌唱視頻確保訓(xùn)練素材能夠涵蓋廣泛的人類表情與聲樂風(fēng)格,為 EMO 模型的開發(fā)提供堅(jiān)實(shí)基礎(chǔ)。
論文:https://arxiv.org/abs/2402.17485
目前,EM
原文鏈接:阿里最新圖生視頻模型效果好得可比肩Sora,但0代碼“假”開源讓國內(nèi)友罵翻了天?
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。