Lumiere: Google 發布用于視頻生成的時空擴散模型

AIGC動態1年前 (2024)發布人工智能學家

AIGC動態歡迎閱讀

原標題：Lumiere: Google 發布用于視頻生成的時空擴散模型
關鍵字：模型,視頻,報告,時間,圖像
文章來源：人工智能學家
內容字數：3900字

內容摘要：

來源：跳動的數據
Lumiere 一種文本轉視頻擴散模型，旨在合成具有逼真、多樣和連貫的視頻，這是視頻合成領域的一項重大挑戰。為此，引入了一種時空 U-Net 架構，該架構通過模型的一次單向傳遞即可生成視頻的整個時間段。這與現有視頻模型不同，現有視頻模型會先合成關鍵幀，然后再進行時間超分辨率，這種方法從本質上使得全局時間一致性難以實現。
https://arxiv.org/pdf/2401.12945.pdf
通過部署空間和（重要地）時間下采樣和上采樣以及利用預訓練的文本轉圖像擴散模型，我們的模型可以學習通過在多個時空尺度進行處理來直接生成全幀率、低分辨率視頻。展示了最先進的文本轉視頻生成結果，并表明我們的設計可以輕松地促進各種內容創作任務和視頻編輯應用程序，包括圖像轉視頻、視頻修復和風格化生成。
簡介
指出了圖像生成模型在近年來取得的顯著進展，尤其是在文本到圖像（T2I）擴散模型方面。這些模型現在能夠合成高分辨率、逼真的圖像，并且能夠根據復雜的文本提示進行圖像編輯和其他下游任務。
盡管圖像生成模型取得了巨大成功，但文本到視頻（T2V）模型的訓練仍然是一個開放的挑戰。這是因為視頻數

原文鏈接：Lumiere: Google 發布用于視頻生成的時空擴散模型