場景視頻生成又卷出新SOTA
浙江大學&商湯科技提出StarGen:解決長距離場景生成時空一致性難題
本文介紹了浙江大學章國鋒教授和商湯科技研究團隊聯合發表的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。該論文針對復雜場景的長距離場景生成中時空一致性問題,提出了一種新穎的解決方案——StarGen。
1. StarGen的核心創新
StarGen的核心創新在于引入空間與時間雙重條件機制,將稀疏視圖的3D幾何信息與視頻擴散模型有機結合,有效緩解了長距離生成中誤差累積的問題。這使得StarGen能夠實現多視一致的長視頻生成,并支持稀疏視圖插值、圖生視頻以及布局驅動場景生成等多種任務。
2. 現有方法的局限性
現有的新視角生成方法主要分為重建模型、生成模型和混合方法三類。重建模型依賴密集視角輸入;生成模型如GAN在全局一致性方面表現不足,而擴散模型則受限于計算資源,難以生成高質量的長視頻。混合方法雖然結合了重建和生成,但仍然存在誤差累積等問題。
3. StarGen的系統框架
StarGen框架包含時空自回歸框架、時空條件視頻生成和下游任務實現三個部分。時空自回歸框架采用滑動窗口的方式逐步生成長視頻,利用時間條件圖像和空間相鄰圖像保證時空一致性。時空條件視頻生成則結合了大型重建模型(LRM)和視頻擴散模型(VDM),通過ControlNet實現對生成內容的精確控制。
4. 損失函數設計
StarGen設計了深度損失、潛在損失和擴散損失三種損失函數,分別用于優化重建深度圖精度、特征空間一致性和生成序列質量。
5. 實驗結果與分析
實驗結果表明,StarGen在稀疏視圖插值、圖生視頻和基于布局的城市生成等任務上均顯著優于現有方法。在稀疏視圖插值任務中,StarGen在PSNR指標上表現突出;在圖生視頻任務中,StarGen生成的視頻在視覺保真度和姿態精度上保持更佳的一致性;在基于布局的城市生成任務中,StarGen生成的場景布局一致性和細節保真度更高。消融實驗也驗證了空間和時間條件機制的有效性。
6. 總結
StarGen通過巧妙地結合空間和時間條件機制以及視頻擴散模型,有效解決了長距離場景生成中的時空一致性難題,為高質量、可控的長視頻生成提供了一種新的解決方案。其在多種下游任務上的優異表現也證明了該方法的有效性和廣泛適用性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺