AIGC動態歡迎閱讀
原標題:兩分鐘1200幀的長視頻生成器StreamingT2V來了,代碼將開源
關鍵字:視頻,方法,模型,團隊,質量
文章來源:機器之心
內容字數:6079字
內容摘要:
機器之心報道
編輯:Panda廣闊的戰場,風暴兵在奔跑……
prompt:Wide shot of battlefield, stormtroopers running…
這段長達 1200 幀的 2 分鐘視頻來自一個文生視頻(text-to-video)模型,盡管 AI 生成的痕跡依然濃重,但我們必須承認,其中的人物和場景具有相當不錯的一致性。
這是如何辦到的呢?要知道,雖然近些年文生視頻技術的生成質量和文本對齊質量都已經相當出色,但大多數現有方法都聚焦于生成短視頻(通常是 16 或 24 幀長度)。然而,適用于短視頻的現有方法通常無法用于長視頻(≥ 64 幀)。
即使是生成短序列,通常也需要成本高昂的訓練,比如訓練步數超過 260K,批大小超過 4500。如果不在更長的視頻上進行訓練,通過短視頻生成器來制作長視頻,得到的長視頻通常質量不佳。而現有的自回歸方法(通過使用短視頻后幾幀生成新的短視頻,進而合成長視頻)也存在場景切換不一致等一些問題。
為了克服現有方法的缺點和局限,Picsart AI Resarch 等多個機構聯合提出了一種新的文生視頻方法:StreamingT2V。
原文鏈接:兩分鐘1200幀的長視頻生成器StreamingT2V來了,代碼將開源
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...