Meta版Sora無預(yù)警來襲！拋棄擴散損失，音視頻生成/畫面編輯全包，92頁論文無保留公開

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：Meta版Sora無預(yù)警來襲！拋棄擴散損失，音視頻生成/畫面編輯全包，92頁論文無保留公開
關(guān)鍵字：視頻,模型,維度,編碼器,文本
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

夢晨衡宇發(fā)自凹非寺量子位 | 公眾號 QbitAI剛剛，Meta搶在OpenAI之前推出自己的Sora——Meta Movie Gen
Sora有的它都有，可創(chuàng)建不同寬高比的高清長視頻，支持1080p、16秒、每秒16幀。
Sora沒有的它還有，能生成配套的背景音樂和音效、根據(jù)文本指令編輯視頻，以及根據(jù)用戶上傳的圖像生成個性化視頻。
Meta表示，這是“迄今為止最先進的媒體基礎(chǔ)模型（Media Foundation Models）”。
只需一句“把燈籠變成飛向空中的泡泡”，就能替換視頻中的物體，同時透明的泡泡正確反射了背景環(huán)境。
上傳一張自己的照片，就能成為AI電影的主角。
生成的視頻不再無聲，也不只是能安一個背景音樂。
比如看這里！視頻會配合滑板輪子轉(zhuǎn)動和落地配上逼真音效。（注意打開聲音）
有人表示，隨著大量創(chuàng)作者學(xué)會使用AI視頻編輯工具，很難想象幾年后長視頻和短視頻會變成什么樣。
這一次，與Sora只有演示和官網(wǎng)博客不同，Meta在92頁的論文中把架構(gòu)、訓(xùn)練細節(jié)都公開了。
不過模型本身還沒開源，遭到抱抱臉工程師貼臉開大，直接在評論區(qū)扔下Meta的開源主頁鏈接：
在這等著您嗷。

原文鏈接：Meta版Sora無預(yù)警來襲！拋棄擴散損失，音視頻生成/畫面編輯全包，92頁論文無保留公開