北大發(fā)起復(fù)現(xiàn)Sora，框架已搭！袁粒田永鴻領(lǐng)銜，AnimateDiff大神響應(yīng)

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：北大發(fā)起復(fù)現(xiàn)Sora，框架已搭！袁粒田永鴻領(lǐng)銜，AnimateDiff大神響應(yīng)
關(guān)鍵字：騰訊,報(bào)告,分辨率,北大,視頻
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4958字

內(nèi)容摘要：

豐色發(fā)自凹非寺量子位 | 公眾號 QbitAI重磅：
北大團(tuán)隊(duì)發(fā)起了一項(xiàng)Sora復(fù)現(xiàn)計(jì)劃——Open Sora。
框架、實(shí)現(xiàn)細(xì)節(jié)已出：
初始團(tuán)隊(duì)一共13人：
帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人。
為什么發(fā)起這項(xiàng)計(jì)劃？
因?yàn)橘Y源有限，團(tuán)隊(duì)希望集結(jié)開源社區(qū)的力量，盡可能完成復(fù)現(xiàn)。
消息一出，就有人北大校友兼AnimateDiff貢獻(xiàn)者等人即刻響應(yīng)：
還有人表示可以提供高質(zhì)量數(shù)據(jù)集：
所以，“國產(chǎn)版Sora”的新挑戰(zhàn)者，就這么來了？
計(jì)劃細(xì)節(jié)，已完成3個初步功能首先，來看目前公布的技術(shù)細(xì)節(jié)——即團(tuán)隊(duì)打算如何復(fù)現(xiàn)Sora。
整體框架上，它將由三部分組成：
Video VQ-VAE
Denoising Diffusion Transformer（去噪擴(kuò)散型Transformer）
Condition Encoder（條件編碼器）
這和Sora技術(shù)報(bào)告的內(nèi)容基本差不多。
對于Sora視頻的可變長寬比，團(tuán)隊(duì)通過參考上海AI Lab剛剛提出的FiT（Flexible Vision Transformer for Diffusion Model，即“升級版

原文鏈接：北大發(fā)起復(fù)現(xiàn)Sora，框架已搭！袁粒田永鴻領(lǐng)銜，AnimateDiff大神響應(yīng)