GEN3C – NVIDIA 聯合多倫多大學等推出的生成式視頻模型
GEN3C是什么
GEN3C是由NVIDIA、多倫多大學和向量研究所共同開發的一款先進的生成式視頻模型,旨在通過精確控制相機和保持時空一致性來創造高質量的3D視頻內容。該模型利用基于點云的3D緩存技術,引入輸入圖像或視頻幀的深度估計,通過反投影生成3D場景。在用戶所提供的相機軌跡的基礎上,GEN3C能夠渲染出對應的2D視頻,成為生成模型的重要條件輸入。其核心優勢在于能夠精確控制相機的,避免了傳統方法中因缺乏明確3D建模而導致的不一致性問題。GEN3C同時支持單視角和多視角的視頻生成,適應于靜態和動態場景,并在稀疏視圖的新型視圖合成任務中取得了領先的成果。此外,GEN3C還支持3D編輯和復雜的相機(比如推拉鏡頭),為視頻創作和模擬提供了強大的工具。
GEN3C的主要功能
- 精確的相機控制:根據用戶輸入的相機軌跡生成視頻,支持復雜的相機(如推拉、旋轉等),確保視頻的時空一致性。
- 3D一致性視頻生成:能夠生成外觀真實且一致的視頻,避免物體的突然出現或消失等問題。
- 多視角和稀疏視角的新型視圖合成:支持從單一視角、稀疏多視角到密集多視角的輸入生成高質量視頻。
- 3D編輯和場景操作:用戶可對3D點云進行修改(如添加或刪除物體),并生成相應的視頻。
- 長視頻生成:支持生成長視頻,并保持時空的一致性。
GEN3C的技術原理
- 構建3D緩存:通過輸入圖像或視頻幀的深度估計進行反投影,生成3D點云,形成時空一致的3D緩存。這一緩存為視頻生成提供了基礎的3D結構。
- 渲染3D緩存:依據用戶提供的相機軌跡,將3D緩存渲染為2D視頻。
- 視頻生成:使用預訓練的視頻擴散模型(例如Stable Video Diffusion或Cosmos),將渲染的3D緩存作為條件輸入,生成高質量的視頻。該模型優化了擴散過程中的去噪目標,以修復渲染中的缺陷并填補缺失信息。
- 多視角融合:在處理多個視角輸入時,GEN3C采用最大池化的融合策略,將不同視角的信息整合到視頻生成模型中,以生成一致的視頻。
- 自回歸生成和緩存更新:在生成長視頻時,GEN3C將視頻劃分為多個重疊的部分,逐塊生成,并更新3D緩存以保持視頻的時空一致性。
GEN3C的項目地址
- 項目官網:https://research.nvidia.com/labs/toronto-ai/GEN3C/
- GitHub倉庫:https://github.com/nv-tlabs/GEN3C
- arXiv技術論文:https://arxiv.org/pdf/2503.03751
GEN3C的應用場景
- 單視角視頻生成:能夠從一張靜態圖片生成動態視頻,適合快速內容創作。
- 新型視圖合成:從少量視角生成新視角視頻,廣泛應用于VR/AR和3D重建。
- 駕駛模擬:生成不同視角的駕駛場景視頻,有助于自動駕駛的訓練。
- 動態視頻重渲染:為已有的視頻生成新視角,適合視頻編輯與二次創作。
- 3D場景編輯:用戶可在修改場景內容后生成新視頻,助力影視制作與游戲開發。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...