國(guó)內(nèi)公司有望做出Sora嗎？這支清華系大模型團(tuán)隊(duì)給出了希望

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：國(guó)內(nèi)公司有望做出Sora嗎？這支清華系大模型團(tuán)隊(duì)給出了希望
關(guān)鍵字：架構(gòu),視頻,模型,數(shù)據(jù),報(bào)告
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：16966字

內(nèi)容摘要：

機(jī)器之心原創(chuàng)
作者：張倩在 Sora 代表的視頻生成路線上，國(guó)內(nèi)公司其實(shí)已有一定的技術(shù)儲(chǔ)備。2023 年年底，很多人都預(yù)測(cè)，未來(lái)一年將是視頻生成快速發(fā)展的一年。但出人意料的是，農(nóng)歷春節(jié)剛過(guò)，OpenAI 就扔出了一個(gè)重磅 —— 能生成 1 分鐘流暢、逼真視頻的 Sora。它的出現(xiàn)讓很多研究者擔(dān)心：國(guó)內(nèi)外 AI 技術(shù)的差距是不是又拉大了？Sora 生成的新視頻
根據(jù) OpenAI 披露的技術(shù)報(bào)告，Sora 的核心技術(shù)點(diǎn)之一是將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為 patch 的統(tǒng)一表示形式，并通過(guò) Transformer 和擴(kuò)散模型結(jié)合，展現(xiàn)了卓越的 scale 特性。無(wú)獨(dú)有偶，最近發(fā)布的 Stable Diffusion 3 也采用了同樣的架構(gòu)。
其實(shí)，這兩項(xiàng)工作都是基于 Sora 核心研發(fā)成員 William Peebles 和紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧合著的一篇論文《Scalable Diffusion Models with Transformers》。這篇論文提出了一種基于 Transformer 架構(gòu)的新型擴(kuò)散模型 ——DiT，用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替

原文鏈接：國(guó)內(nèi)公司有望做出Sora嗎？這支清華系大模型團(tuán)隊(duì)給出了希望