Direct3D-S2 – 南大聯合復旦等高校推出的高分辨率3D生成框架
Direct3D-S2 是學、DreamTech、復旦大學和牛津大學的研究團隊聯合開發的一種高分辨率 3D 生成框架。它利用稀疏體積表示和創新的空間稀疏注意力(SSA)機制,顯著提升了擴散變換器(DiT)的計算效率,并有效降低了訓練成本。該框架采用全端到端的稀疏 SDF 變分自編碼器(SS-VAE),具備對稱的編碼器-解碼器結構,支持多分辨率訓練。通過使用 8 個 GPU,Direct3D-S2 可在 10243 的分辨率下進行高效訓練,超越現有方法,為高分辨率 3D 內容創作提供了強有力的技術支持。
Direct3D-S2是什么
Direct3D-S2 是一款先進的高分辨率 3D 生成框架,由學、DreamTech、復旦大學和牛津大學的研究人員共同研發。該框架基于稀疏體積表示和創新的空間稀疏注意力機制,顯著提升了擴散變換器的計算效率,并降低了訓練成本。其全端到端的稀疏 SDF 變分自編碼器采用對稱編碼器-解碼器結構,支持多分辨率訓練,并能夠在10243分辨率下僅使用8個GPU進行訓練。Direct3D-S2 在生成質量和效率方面均優于現有方法,為高分辨率 3D 內容的創作提供了強大的技術支持。
Direct3D-S2的主要功能
- 高分辨率3D形狀生成:能夠從圖像生成高分辨率的3D形狀,支持分辨率高達10243,生成的模型展現出精細的幾何細節和卓越的視覺效果。
- 高效的訓練與推理:顯著提高了擴散變換器的計算效率,降低了訓練成本。在10243分辨率下,僅需8個GPU即可完成訓練。
- 圖像條件的3D生成:支持基于輸入圖像的條件生成,能夠生成與輸入圖像相符的3D模型。
Direct3D-S2的技術原理
- 空間稀疏注意力(SSA)機制:通過將輸入token按3D坐標分塊,利用稀疏3D卷積及池化操作提取塊級全局信息,從而減少token數量并提升計算效率。該機制根據壓縮模塊的注意力分數,選擇重要的塊進行細粒度特征提取,進一步優化計算資源的使用。通過局部窗口操作注入局部特征以增強局部特征的交互,提高生成質量。最終,通過預測的門控分數聚合三個模塊的輸出,生成最終的注意力結果。
- 稀疏SDF變分自編碼器(SS-VAE):結合稀疏3D卷積網絡與Transformer網絡,將高分辨率的稀疏SDF體積編碼為稀疏潛在表示,并通過解碼器重建SDF體積。在訓練過程中,隨機采樣不同分辨率的SDF體積,從而提高模型對不同分辨率數據的適應能力,增強訓練效率和泛化能力。
- 圖像條件的擴散變換器(SS-DiT):從輸入圖像中提取稀疏前景token,減少背景token的干擾,從而提升生成的3D模型與輸入圖像的一致性。基于條件流匹配訓練模型,預測從噪聲樣本到數據分布的速度場,實現在高效的3D形狀生成。
Direct3D-S2的項目地址
- 項目官網:https://nju-3dv.github.io/projects/Direct3D-S2/
- GitHub倉庫:https://github.com/DreamTechAI/Direct3D-S2
- arXiv技術論文:https://arxiv.org/pdf/2505.17412
- 在線體驗Demo:https://huggingface.co/spaces/wushuang98/Direct3D-S2
Direct3D-S2的應用場景
- 虛擬現實(VR)和增強現實(AR):用于構建逼真的3D環境,創建個性化3D角色,融合現實場景以進行教育和文化遺產保護。
- 游戲開發:能夠快速生成高質量的3D游戲資產,實現實時的3D內容生成,根據玩家的輸入生成定制化內容。
- 產品設計和原型制作:快速生成產品的3D模型,進行虛擬展示,滿足個性化設計需求。
- 影視和動畫制作:生成高質量的3D動畫角色,創建虛擬場景,制作復雜的3D特效。
- 教育和培訓:創建虛擬實驗室,生成3D教學模型,以支持虛擬職業培訓。
常見問題
- Direct3D-S2是否支持多種平臺?:是的,Direct3D-S2可以在多個平臺上運行,適用于不同的開發環境。
- 如何獲取Direct3D-S2的使用權限?:用戶可以通過訪問項目官網和GitHub倉庫獲取相關信息和使用權限。
- Direct3D-S2的學習曲線如何?:Direct3D-S2提供了詳細的文檔和示例,用戶可以通過這些資源快速上手。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...