AIGC動態歡迎閱讀
原標題:湯曉鷗帶隊:免調優長視頻生成,可支持512幀!任何擴散模型都能用|ICLR'24
關鍵字:騰訊,噪聲,視頻,時間,方法
文章來源:量子位
內容字數:4685字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI想要AI生成更長的視頻?
現在,有人提出了一個效果很不錯的免調優方法,直接就能作用于預訓練好的視頻擴散模型。
它最長可支持512幀(假設幀率按30fps算,理論上那就是能生成約17秒長的作品了)。可應用于任何視頻生成模型,比如AnimateDiff、LaVie等等。
以及還能支持多文本生成,比如可以讓駱駝一會跑一會停:
(提示詞:”A camel running on the snow field.” -> “…… standing ……”)
這項成果來自騰訊AI Lab、南洋理工大學以及港科大,入選了ICLR 2024。
值得一提的是,與此前業內性能最佳的同類方法帶來255%的額外時間成本相比,它僅產生約17%的時間成本,因此直接可以忽略不計。
可以說是成本和性能兩全了~
具體來看看。
通過重新調度噪聲實現該方法主要解決的是兩個問題:
一是現有視頻生成通常在有限數量的幀上完成訓練,導致推理過程中無法生成高保真長視頻。
二是這些模型還僅支持單文本生成(即使你給了“一個人睡在桌子上,然后看書”這種提示詞,模型也只會響應其中一個條件),而應
原文鏈接:湯曉鷗帶隊:免調優長視頻生成,可支持512幀!任何擴散模型都能用|ICLR'24
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...