湯曉鷗帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24

AIGC動態2年前 (2024)發布量子位

湯曉鷗弟子帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24

AIGC動態歡迎閱讀

原標題：湯曉鷗帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24
關鍵字：騰訊,噪聲,視頻,時間,方法
文章來源：量子位
內容字數：4685字

內容摘要：

豐色發自凹非寺量子位 | 公眾號 QbitAI想要AI生成更長的視頻？
現在，有人提出了一個效果很不錯的免調優方法，直接就能作用于預訓練好的視頻擴散模型。
它最長可支持512幀（假設幀率按30fps算，理論上那就是能生成約17秒長的作品了）。可應用于任何視頻生成模型，比如AnimateDiff、LaVie等等。
以及還能支持多文本生成，比如可以讓駱駝一會跑一會停：
（提示詞：”A camel running on the snow field.” -> “…… standing ……”）
這項成果來自騰訊AI Lab、南洋理工大學以及港科大，入選了ICLR 2024。
值得一提的是，與此前業內性能最佳的同類方法帶來255%的額外時間成本相比，它僅產生約17%的時間成本，因此直接可以忽略不計。
可以說是成本和性能兩全了～
具體來看看。
通過重新調度噪聲實現該方法主要解決的是兩個問題：
一是現有視頻生成通常在有限數量的幀上完成訓練，導致推理過程中無法生成高保真長視頻。
二是這些模型還僅支持單文本生成（即使你給了“一個人睡在桌子上，然后看書”這種提示詞，模型也只會響應其中一個條件），而應

原文鏈接：湯曉鷗帶隊：免調優長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24