北大發(fā)起復(fù)現(xiàn)Sora,框架已搭!袁粒田永鴻領(lǐng)銜,AnimateDiff大神響應(yīng)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:北大發(fā)起復(fù)現(xiàn)Sora,框架已搭!袁粒田永鴻領(lǐng)銜,AnimateDiff大神響應(yīng)
關(guān)鍵字:騰訊,報(bào)告,分辨率,北大,視頻
文章來源:量子位
內(nèi)容字?jǐn)?shù):4958字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI重磅:
北大團(tuán)隊(duì)發(fā)起了一項(xiàng)Sora復(fù)現(xiàn)計(jì)劃——Open Sora。
框架、實(shí)現(xiàn)細(xì)節(jié)已出:
初始團(tuán)隊(duì)一共13人:
帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人。
為什么發(fā)起這項(xiàng)計(jì)劃?
因?yàn)橘Y源有限,團(tuán)隊(duì)希望集結(jié)開源社區(qū)的力量,盡可能完成復(fù)現(xiàn)。
消息一出,就有人北大校友兼AnimateDiff貢獻(xiàn)者等人即刻響應(yīng):
還有人表示可以提供高質(zhì)量數(shù)據(jù)集:
所以,“國產(chǎn)版Sora”的新挑戰(zhàn)者,就這么來了?
計(jì)劃細(xì)節(jié),已完成3個初步功能首先,來看目前公布的技術(shù)細(xì)節(jié)——即團(tuán)隊(duì)打算如何復(fù)現(xiàn)Sora。
整體框架上,它將由三部分組成:
Video VQ-VAE
Denoising Diffusion Transformer(去噪擴(kuò)散型Transformer)
Condition Encoder(條件編碼器)
這和Sora技術(shù)報(bào)告的內(nèi)容基本差不多。
對于Sora視頻的可變長寬比,團(tuán)隊(duì)通過參考上海AI Lab剛剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升級版
原文鏈接:北大發(fā)起復(fù)現(xiàn)Sora,框架已搭!袁粒田永鴻領(lǐng)銜,AnimateDiff大神響應(yīng)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破