國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望
關(guān)鍵字:架構(gòu),視頻,模型,數(shù)據(jù),報(bào)告
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):16966字
內(nèi)容摘要:
機(jī)器之心原創(chuàng)
作者:張倩在 Sora 代表的視頻生成路線上,國(guó)內(nèi)公司其實(shí)已有一定的技術(shù)儲(chǔ)備。2023 年年底,很多人都預(yù)測(cè),未來(lái)一年將是視頻生成快速發(fā)展的一年。但出人意料的是,農(nóng)歷春節(jié)剛過(guò),OpenAI 就扔出了一個(gè)重磅 —— 能生成 1 分鐘流暢、逼真視頻的 Sora。它的出現(xiàn)讓很多研究者擔(dān)心:國(guó)內(nèi)外 AI 技術(shù)的差距是不是又拉大了?Sora 生成的新視頻
根據(jù) OpenAI 披露的技術(shù)報(bào)告,Sora 的核心技術(shù)點(diǎn)之一是將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為 patch 的統(tǒng)一表示形式,并通過(guò) Transformer 和擴(kuò)散模型結(jié)合,展現(xiàn)了卓越的 scale 特性。無(wú)獨(dú)有偶,最近發(fā)布的 Stable Diffusion 3 也采用了同樣的架構(gòu)。
其實(shí),這兩項(xiàng)工作都是基于 Sora 核心研發(fā)成員 William Peebles 和紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧合著的一篇論文《Scalable Diffusion Models with Transformers》。這篇論文提出了一種基于 Transformer 架構(gòu)的新型擴(kuò)散模型 ——DiT,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替
原文鏈接:國(guó)內(nèi)公司有望做出Sora嗎?這支清華系大模型團(tuán)隊(duì)給出了希望
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)