Bolt3D – 牛津大合谷歌推出的 3D 場景生成技術
Bolt3D 是一項由谷歌研究院、牛津大學的 VGG 團隊以及谷歌 DeepMind 聯合開發的創新型 3D 場景生成技術。這項潛在擴散模型可以在單個 GPU 上,短短不到七秒的時間內,從一張或多張圖像中生成 3D 場景表示。在英偉達 H100 圖形處理單元上,Bolt3D 僅需 6.25 秒便能將照片轉化為完整的三維場景。
Bolt3D是什么
Bolt3D 是一種先進的 3D 場景生成技術,由谷歌研究院、牛津大學 VGG 團隊和谷歌 DeepMind 的專家團隊共同開發。它是一種潛在擴散模型,能夠在單個 GPU 上,快速地從一張或多張輸入圖像中生成 3D 場景表示,處理速度極快,使用英偉達 H100 圖形處理單元時,僅需 6.25 秒即可完成整個過程。
Bolt3D的主要功能
- 迅速生成三維場景:Bolt3D 采用前饋生成方法,能夠直接從一張或多張輸入圖像中采樣出 3D 場景表示,生成速度非常快,在單個 GPU 上僅需 6.25 秒即可完成。
- 支持多視角輸入與優異的泛化能力:該技術支持不同數量的輸入圖像,從單視圖到多視圖均可有效處理,能夠生成未被觀測區域的內容,展現出良好的泛化能力。
- 高保真度的3D場景表示:基于高斯濺射技術,Bolt3D 通過在二維網格中布置三維高斯函數來存儲數據,每個函數記錄了位置、顏色、透明度和空間信息,生成的三維場景質量極高。
- 實時交互與廣泛應用:用戶能夠在瀏覽器中實時查看和渲染生成的 3D 場景,具備廣闊的應用前景,涵蓋游戲開發、虛擬現實、增強現實、建筑設計、影視制作等多個領域。
Bolt3D的技術原理
- 幾何多視角潛在擴散模型:該模型經過訓練,用于聯合建模圖像和 3D 點圖,能夠處理一張或多張圖像及其相機位姿,學習捕捉目標圖像、目標點圖和源視圖點圖的聯合分布。
- 幾何變分自編碼器(VAE):Bolt3D 使用幾何 VAE,將一個視圖的點圖和相機射線圖聯合編碼為幾何潛在特征,模型通過最小化標準 VAE 目標和特定幾何損失的組合進行優化,以高精度壓縮點圖。
- 高斯頭部模型:給定相機及生成的圖像和點圖,Bolt3D 訓練多視角前饋高斯頭部模型,輸出存儲在散點圖像中的 3D 高斯的細化顏色、不透明度和協方差矩陣。
- 大規模多視角一致數據集:為訓練 Bolt3D,構建了一個大規模的多視角一致的 3D 幾何及外觀數據集,通過對現有的多視圖圖像數據集應用先進的密集重建技術生成。
- 三階段訓練過程:Bolt3D 采用三階段訓練流程,首先訓練幾何變分自編碼器,然后訓練高斯頭部模型,最后訓練潛在擴散模型。
Bolt3D的項目地址
Bolt3D的應用場景
- 游戲開發:能夠快速生成游戲中的 3D 場景,顯著縮短開發時間和降低成本。
- 虛擬現實與增強現實:為 VR 和 AR 應用提供實時的 3D 場景生成,提升用戶的沉浸體驗。
- 建筑設計:迅速生成建筑的 3D 模型,有助于設計和展示。
- 影視制作:在電影和電視劇的特效制作中,快速生成復雜的 3D 場景,提升制作效率。
常見問題
- Bolt3D支持哪些輸入圖像類型?:Bolt3D 支持從單視圖到多視圖的各種輸入圖像。
- 生成的 3D 場景可以實時交互嗎?:是的,用戶可以在瀏覽器中實時查看和交互生成的 3D 場景。
- Bolt3D的處理速度有多快?:在英偉達 H100 圖形處理單元上,Bolt3D 僅需約 6.25 秒即可完成 3D 場景的生成。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...