Motion Dreamer

Motion Dreamer – 香港科技大學推出的合理視頻生成框架

Motion Dreamer是什么

Motion Dreamer是由香港科技大學（廣州）研究團隊開發的一種視頻生成框架，專注于創造合理的視頻內容。該框架采用兩階段生成機制：首先，基于輸入圖像和條件，生成中間表示；接著，利用這些表示合成高細節的視頻。通過引入實例流這一創新的模態，Motion Dreamer能夠實現從稀疏到密集的控制，用戶僅需提供稀疏的提示，模型便能生成時間連貫的視頻。隨機掩碼實例流策略的運用提升了模型的推理與泛化能力。實驗證明，Motion Dreamer在Physion數據集及自動駕駛數據集上表現出色，尤其在連貫性和物理合理性方面顯著超越其他模型，同時確保生成高質量的視頻。

Motion Dreamer

Motion Dreamer的主要功能

生成物理合理的視頻：作為一款兩階段的視頻生成框架，Motion Dreamer能夠生成符合物理規律的視頻。在第一階段，模型根據輸入圖像和條件生成中間表示，例如分割圖或深度圖，重點關注的本質；在第二階段，利用這些中間表示來生成高細節的視頻。
從稀疏到密集的控制：通過引入實例流這一新的模態，用戶可以提供稀疏的提示，如表示平均光流方向的箭頭，而模型則生成像素對齊的密集表示，從而實現時間連貫的視頻生成。
提升模型的推理能力：采用隨機掩碼實例流的訓練策略，在訓練過程中隨機掩碼部分實例流，要求模型重建完整的密集表示。這一過程促使模型推斷缺失的提示，增強了模型的泛化能力及其基于推理的生成效果。

Motion Dreamer的技術原理

兩階段生成框架
- 第一階段：推理：基于輸入圖像和條件，生成中間表示，如分割圖和深度圖，專注于的本質。這一階段利用基于擴散的視頻生成模型，強調低頻表示，以增強時間連貫性。模型會預測光流、實例分割圖和深度圖等中間表示，構成對場景動態的全面描述。
- 第二階段：高保真視頻合成：利用第一階段生成的中間表示作為條件，生成高細節的視頻。通過將推理與視頻合成解耦，模型能夠更準確地生成符合物理規律的，同時保持視頻的高質量細節。
實例流：實例流是一種新穎的稀疏到密集的模態，用于連接用戶輸入與密集表示。為了有效整合實例流，模型準備了多尺度的實例流版本，以匹配網絡中不同尺度的特征圖。通過Softmax Splatting函數，將特征圖進行變形，分布到新的位置，整合信息，同時保持可微性以支持端到端訓練。
隨機掩碼實例流訓練策略：在訓練過程中，隨機掩碼部分實例流，要求模型重建完整的密集表示。通過這種方式，模型不僅可以處理不完整的信息，還能更好地理解和預測對象之間的交互及合理軌跡，即使在輸入稀疏的情況下也能生成合理的。