超越Sora極限,120秒超長AI視頻模型誕生!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:超越Sora極限,120秒超長AI視頻模型誕生!
關(guān)鍵字:視頻,研究人員,特征,模型,文本
文章來源:新智元
內(nèi)容字?jǐn)?shù):6409字
內(nèi)容摘要:
新智元報(bào)道編輯:潤 好困
【新智元導(dǎo)讀】UT奧斯丁等機(jī)構(gòu)提出了一種名為StreamingT2V的技術(shù),讓AI視頻的長度擴(kuò)展至近乎無限,而且一致性,動(dòng)作幅度也非常好!Sora一出,文生視頻的在長度這個(gè)指標(biāo)上就卷的沒邊了。
從Pika和Runway的4秒,到VideoPoet的理論無限長,各個(gè)團(tuán)隊(duì)都在通過各種不同的技術(shù)路徑不斷延長視頻生成長度的上限。
最近,來自Picsart AI Research,UT Austin和Shi Labs的研究團(tuán)隊(duì)提出了一個(gè)新的文生視頻技術(shù)——StreamingT2,可以生成高度一致而且長度可擴(kuò)展的視頻。
文生視頻技術(shù)進(jìn)入長視頻時(shí)代。
論文地址:https://arxiv.org/abs/2403.14773
具體來說,StreamingT2V可以生成1200幀甚至理論上無限長的長視頻,并且能保證視頻內(nèi)容過渡非常自然平滑,內(nèi)容豐富多樣。
帝國士兵在煙霧中不停奔跑,雖然動(dòng)作很滑稽,但是幅度很大,人物一致性很好。
它的核心構(gòu)架由3個(gè)部分組成:
– 一個(gè)短期記憶單元——條件注意力模塊(CAM),它能夠確保視頻的連貫性,通過關(guān)注前一個(gè)視頻片段的特征來引導(dǎo)當(dāng)前片段的
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。