Motion Dreamer – 香港科技大學推出的合理視頻生成框架
Motion Dreamer是什么
Motion Dreamer是由香港科技大學(廣州)研究團隊開發的一種視頻生成框架,專注于創造合理的視頻內容。該框架采用兩階段生成機制:首先,基于輸入圖像和條件,生成中間表示;接著,利用這些表示合成高細節的視頻。通過引入實例流這一創新的模態,Motion Dreamer能夠實現從稀疏到密集的控制,用戶僅需提供稀疏的提示,模型便能生成時間連貫的視頻。隨機掩碼實例流策略的運用提升了模型的推理與泛化能力。實驗證明,Motion Dreamer在Physion數據集及自動駕駛數據集上表現出色,尤其在連貫性和物理合理性方面顯著超越其他模型,同時確保生成高質量的視頻。
Motion Dreamer的主要功能
- 生成物理合理的視頻:作為一款兩階段的視頻生成框架,Motion Dreamer能夠生成符合物理規律的視頻。在第一階段,模型根據輸入圖像和條件生成中間表示,例如分割圖或深度圖,重點關注的本質;在第二階段,利用這些中間表示來生成高細節的視頻。
- 從稀疏到密集的控制:通過引入實例流這一新的模態,用戶可以提供稀疏的提示,如表示平均光流方向的箭頭,而模型則生成像素對齊的密集表示,從而實現時間連貫的視頻生成。
- 提升模型的推理能力:采用隨機掩碼實例流的訓練策略,在訓練過程中隨機掩碼部分實例流,要求模型重建完整的密集表示。這一過程促使模型推斷缺失的提示,增強了模型的泛化能力及其基于推理的生成效果。
Motion Dreamer的技術原理
- 兩階段生成框架
- 第一階段:推理:基于輸入圖像和條件,生成中間表示,如分割圖和深度圖,專注于的本質。這一階段利用基于擴散的視頻生成模型,強調低頻表示,以增強時間連貫性。模型會預測光流、實例分割圖和深度圖等中間表示,構成對場景動態的全面描述。
- 第二階段:高保真視頻合成:利用第一階段生成的中間表示作為條件,生成高細節的視頻。通過將推理與視頻合成解耦,模型能夠更準確地生成符合物理規律的,同時保持視頻的高質量細節。
- 實例流:實例流是一種新穎的稀疏到密集的模態,用于連接用戶輸入與密集表示。為了有效整合實例流,模型準備了多尺度的實例流版本,以匹配網絡中不同尺度的特征圖。通過Softmax Splatting函數,將特征圖進行變形,分布到新的位置,整合信息,同時保持可微性以支持端到端訓練。
- 隨機掩碼實例流訓練策略:在訓練過程中,隨機掩碼部分實例流,要求模型重建完整的密集表示。通過這種方式,模型不僅可以處理不完整的信息,還能更好地理解和預測對象之間的交互及合理軌跡,即使在輸入稀疏的情況下也能生成合理的。
Motion Dreamer的項目地址
- 項目官網:https://envision-research.github.io/MotionDreamer
- Github倉庫:https://github.com/EnVision-Research/MotionDreamer
- arXiv技術論文:https://arxiv.org/pdf/2412.00547
Motion Dreamer的應用場景
- 視頻內容創作:在電影、電視劇和廣告制作中,Motion Dreamer可以生成高質量且符合物理規律的視頻片段,為創作者提供更大的創意空間和素材選擇。
- 動畫制作:在動畫電影及游戲動畫制作中,Motion Dreamer能夠生成逼真的角色動畫,減少手動制作的時間和成本,從而提高動畫制作的效率。
- 沉浸式體驗:在虛擬現實和增強現實應用中,Motion Dreamer可以創造逼真的虛擬場景和動態效果,為用戶提供更加沉浸的體驗。
- 交互式應用:通過用戶輸入的稀疏提示,Motion Dreamer能夠生成與用戶互動的動態內容,實現更自然流暢的交互體驗。
- 駕駛場景模擬:Motion Dreamer能在自動駕駛領域生成各種復雜的駕駛場景,助力測試和優化自動駕駛算法。
- 交通流量分析:利用Motion Dreamer生成的大量駕駛場景數據,可以進行交通流量分析和預測,為城市交通規劃與管理提供參考依據。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...