LeviTor – 南大聯合螞蟻等機構開源的3D目標軌跡控制視頻合成技術
LeviTor是什么
LeviTor是由學、螞蟻集團和浙江大學等機構聯合開發的一項前沿圖像到視頻合成技術。該技術通過結合深度信息和K-means聚類算法,能夠控制視頻中3D物體的軌跡,而無需進行顯式的3D軌跡跟蹤。通過高質量的視頻對象分割數據集進行訓練,LeviTor能夠有效捕捉復雜場景中物體的和交互。其用戶友好的推理流程簡化了3D軌跡的輸入,極大地提升了視頻生成技術的先進性和易用性。LeviTor的推出為3D物體軌跡的控制開辟了新的可能性,擴大了創意應用的范圍,適合更廣泛的用戶群體。

LeviTor的主要功能
- 精準控制物體:在從靜態圖像生成動態視頻時,能夠精確操控物體的軌跡。
- 激發創意應用:基于3D軌跡的控制,拓展了視頻合成的創意應用潛力。
- 簡化用戶輸入流程:用戶可以通過簡單的2D圖像繪制和深度調整輕松輸入3D軌跡,降低了技術門檻。
- 自動提取深度信息和物體掩碼:系統能夠自動從圖像中提取深度信息和物體掩碼,減少用戶操作的復雜性。
- 交互式軌跡繪制:用戶可交互式地繪制物體軌跡,系統將這些輸入轉換為3D路徑。
LeviTor的技術原理
- K-means聚類:對視頻對象掩碼的像素進行K-means聚類,提取出一組代表性的控制點。
- 深度信息融合:通過深度估計網絡DepthAnythingV2預測相對深度圖,并在每個控制點采樣深度,增強控制點的深度信息。
- 控制信號構建:結合2D坐標與估計的深度值,構建控制軌跡,這些軌跡作為視頻擴散模型的控制信號。
- 視頻擴散模型:將控制信號輸入視頻擴散模型中,生成與3D軌跡對齊的視頻內容。
- 用戶友好的推理流程:設計了用戶友好的交互系統,用戶可通過簡單的點擊和深度值調整輸入3D軌跡。
LeviTor的項目地址
- 項目官網:ppetrichor.github.io/levitor
- GitHub倉庫:https://github.com/qiuyu96/LeviTor
- HuggingFace模型庫:https://huggingface.co/hlwang06/LeviTor
- arXiv技術論文:https://arxiv.org/pdf/2412.15214
LeviTor的應用場景
- 電影特效制作:生成真實感十足的特效場景,降低實地拍攝的成本,提高制作效率。
- 游戲動畫生成:在游戲開發中創造動態的背景和角色動畫,增強玩家的沉浸感。
- 虛擬現實體驗:在VR應用中合成真實的虛擬環境,為用戶提供更為真實的沉浸式體驗。
- 增強現實展示:在AR領域將虛擬信息與現實世界無縫結合,適用于教育、導航等多個場景。
- 廣告視頻制作:制作引人注目的動態廣告視頻,吸引觀眾注意力,提升品牌形象與產品吸引力。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號