Motion Dreamer – 香港科技大學(xué)推出的合理視頻生成框架
Motion Dreamer是什么
Motion Dreamer是由香港科技大學(xué)(廣州)研究團(tuán)隊(duì)開發(fā)的一種視頻生成框架,專注于創(chuàng)造合理的視頻內(nèi)容。該框架采用兩階段生成機(jī)制:首先,基于輸入圖像和條件,生成中間表示;接著,利用這些表示合成高細(xì)節(jié)的視頻。通過引入實(shí)例流這一創(chuàng)新的模態(tài),Motion Dreamer能夠?qū)崿F(xiàn)從稀疏到密集的控制,用戶僅需提供稀疏的提示,模型便能生成時(shí)間連貫的視頻。隨機(jī)掩碼實(shí)例流策略的運(yùn)用提升了模型的推理與泛化能力。實(shí)驗(yàn)證明,Motion Dreamer在Physion數(shù)據(jù)集及自動(dòng)駕駛數(shù)據(jù)集上表現(xiàn)出色,尤其在連貫性和物理合理性方面顯著超越其他模型,同時(shí)確保生成高質(zhì)量的視頻。
Motion Dreamer的主要功能
- 生成物理合理的視頻:作為一款兩階段的視頻生成框架,Motion Dreamer能夠生成符合物理規(guī)律的視頻。在第一階段,模型根據(jù)輸入圖像和條件生成中間表示,例如分割圖或深度圖,重點(diǎn)關(guān)注的本質(zhì);在第二階段,利用這些中間表示來生成高細(xì)節(jié)的視頻。
- 從稀疏到密集的控制:通過引入實(shí)例流這一新的模態(tài),用戶可以提供稀疏的提示,如表示平均光流方向的箭頭,而模型則生成像素對(duì)齊的密集表示,從而實(shí)現(xiàn)時(shí)間連貫的視頻生成。
- 提升模型的推理能力:采用隨機(jī)掩碼實(shí)例流的訓(xùn)練策略,在訓(xùn)練過程中隨機(jī)掩碼部分實(shí)例流,要求模型重建完整的密集表示。這一過程促使模型推斷缺失的提示,增強(qiáng)了模型的泛化能力及其基于推理的生成效果。
Motion Dreamer的技術(shù)原理
- 兩階段生成框架
- 第一階段:推理:基于輸入圖像和條件,生成中間表示,如分割圖和深度圖,專注于的本質(zhì)。這一階段利用基于擴(kuò)散的視頻生成模型,強(qiáng)調(diào)低頻表示,以增強(qiáng)時(shí)間連貫性。模型會(huì)預(yù)測(cè)光流、實(shí)例分割圖和深度圖等中間表示,構(gòu)成對(duì)場(chǎng)景動(dòng)態(tài)的全面描述。
- 第二階段:高保真視頻合成:利用第一階段生成的中間表示作為條件,生成高細(xì)節(jié)的視頻。通過將推理與視頻合成解耦,模型能夠更準(zhǔn)確地生成符合物理規(guī)律的,同時(shí)保持視頻的高質(zhì)量細(xì)節(jié)。
- 實(shí)例流:實(shí)例流是一種新穎的稀疏到密集的模態(tài),用于連接用戶輸入與密集表示。為了有效整合實(shí)例流,模型準(zhǔn)備了多尺度的實(shí)例流版本,以匹配網(wǎng)絡(luò)中不同尺度的特征圖。通過Softmax Splatting函數(shù),將特征圖進(jìn)行變形,分布到新的位置,整合信息,同時(shí)保持可微性以支持端到端訓(xùn)練。
- 隨機(jī)掩碼實(shí)例流訓(xùn)練策略:在訓(xùn)練過程中,隨機(jī)掩碼部分實(shí)例流,要求模型重建完整的密集表示。通過這種方式,模型不僅可以處理不完整的信息,還能更好地理解和預(yù)測(cè)對(duì)象之間的交互及合理軌跡,即使在輸入稀疏的情況下也能生成合理的。
Motion Dreamer的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://envision-research.github.io/MotionDreamer
- Github倉(cāng)庫(kù):https://github.com/EnVision-Research/MotionDreamer
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.00547
Motion Dreamer的應(yīng)用場(chǎng)景
- 視頻內(nèi)容創(chuàng)作:在電影、電視劇和廣告制作中,Motion Dreamer可以生成高質(zhì)量且符合物理規(guī)律的視頻片段,為創(chuàng)作者提供更大的創(chuàng)意空間和素材選擇。
- 動(dòng)畫制作:在動(dòng)畫電影及游戲動(dòng)畫制作中,Motion Dreamer能夠生成逼真的角色動(dòng)畫,減少手動(dòng)制作的時(shí)間和成本,從而提高動(dòng)畫制作的效率。
- 沉浸式體驗(yàn):在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,Motion Dreamer可以創(chuàng)造逼真的虛擬場(chǎng)景和動(dòng)態(tài)效果,為用戶提供更加沉浸的體驗(yàn)。
- 交互式應(yīng)用:通過用戶輸入的稀疏提示,Motion Dreamer能夠生成與用戶互動(dòng)的動(dòng)態(tài)內(nèi)容,實(shí)現(xiàn)更自然流暢的交互體驗(yàn)。
- 駕駛場(chǎng)景模擬:Motion Dreamer能在自動(dòng)駕駛領(lǐng)域生成各種復(fù)雜的駕駛場(chǎng)景,助力測(cè)試和優(yōu)化自動(dòng)駕駛算法。
- 交通流量分析:利用Motion Dreamer生成的大量駕駛場(chǎng)景數(shù)據(jù),可以進(jìn)行交通流量分析和預(yù)測(cè),為城市交通規(guī)劃與管理提供參考依據(jù)。
# AI工具# AI項(xiàng)目和框架# 個(gè)性化藝術(shù)創(chuàng)作# 創(chuàng)意設(shè)計(jì)工具# 動(dòng)畫生成# 實(shí)時(shí)互動(dòng)體驗(yàn)# 夢(mèng)境可視化
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...