微軟新作「Mora」,復(fù)原了Sora
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟新作「Mora」,復(fù)原了Sora
關(guān)鍵字:視頻,圖像,文本,模型,智能
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):11102字
內(nèi)容摘要:
夕小瑤科技說 分享來源 | 新智元微軟版Sora誕生了!
Sora雖爆火但閉源,給學(xué)術(shù)界帶來了不小的挑戰(zhàn)。學(xué)者們只能嘗試使用逆向工程來對(duì)Sora復(fù)現(xiàn)或擴(kuò)展。盡管提出了Diffusion Transformer和空間patch策略,但想要達(dá)到Sora的性能還是很難,何況還缺乏算力和數(shù)據(jù)集。不過,研究者發(fā)起的新一波復(fù)現(xiàn)Sora的沖鋒,這不就來了么!就在剛剛,理海大手微軟團(tuán)隊(duì)一種新型的多AI智能體框架———Mora。
論文地址:https://arxiv.org/abs/2403.13248
沒錯(cuò),理海大學(xué)和微軟的思路,是靠AI智能體。Mora更像是Sora的通才視頻生成。通過整合多個(gè)SOTA的視覺AI智能體,來復(fù)現(xiàn)Sora展示的通用視頻生成能力。
具體來說,Mora能夠利用多個(gè)視覺智能體,在多種任務(wù)中成功模擬Sora的視頻生成能力,包括:
– 文本到視頻生成
– 基于文本條件的圖像到視頻生成
– 擴(kuò)展已生成視頻
– 視頻到視頻編輯
– 拼接視頻
– 模擬數(shù)字世界實(shí)驗(yàn)結(jié)果表明,Mora在這些任務(wù)中取得了接近Sora的表現(xiàn)。值得一提的是,它在文本到視頻生成任務(wù)中的表現(xiàn)超越了現(xiàn)有的開源模型,
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報(bào)道深度。