原標題:單圖秒變3D對象,還可交互實時編輯!Stability AI中科大校友新作
文章來源:新智元
內容字數:8863字
Stability AI發布全新3D重建方法SPAR3D:單圖秒變3D模型,實時交互編輯
Stability AI近日發布了一款名為SPAR3D的全新3D重建方法,其核心能力在于能夠在不到一秒鐘的時間內,僅從單張2D圖像生成完整的3D物體結構,并支持實時交互式編輯。該方法的原理、代碼、模型權重以及訓練數據均已公開,并采用寬松的商業許可證,允許商用。
1. SPAR3D的工作原理
SPAR3D采用兩階段架構:首先,利用點擴散模型生成稀疏點云,捕捉物體的基本結構;然后,通過Transformer主干網絡,同時處理生成的點云數據和輸入圖像,生成高分辨率的三平面數據,最終實現3D重建。這種設計巧妙地將不確定性集中在點云生成階段,提高了計算效率。實驗表明,該方法主要依賴輸入圖像重建正面,而依賴點云生成背面。
2. 兩階段架構詳解
點云生成階段: 使用基于去噪擴散概率模型的點擴散框架,生成包含反照率信息的稀疏點云。該階段計算效率高,為后續網格生成提供指導。 點擴散框架包含前向加噪和后向去噪兩個過程,利用Denoising diffusion implicit models (DDIM) 和 Classifier-free diffusion guidance (CFDG) 提升采樣保真度。
網格生成階段: 三平面Transformer作為主干網絡,處理圖像特征和點云信息,生成高分辨率的三平面數據。利用可微分渲染器,結合幾何圖形、材質和光照信息,最終生成紋理網格。該階段利用可變行進四面體(DMTet)將隱式密度場轉換為顯式曲面,并通過多個MLP頭預測點偏移、表面法線和密度,提升表面平滑度。
3. 關鍵設計與優勢
SPAR3D的關鍵設計在于使用稀疏點云作為兩個階段的橋梁。點云作為輕量級的中間表示,既能保證快速重建,又能為網格生成提供足夠的指導信息。此外,點云的缺乏連通性反而成為優勢,方便用戶進行局部編輯,例如修改物體的鼻子長度,無需擔心拓撲結構問題。
4. 實驗結果與性能
在GSO和Omniobject3D數據集上的基準測試表明,SPAR3D在速度和精度上都取得了顯著的優勢:比速度快的模型精度不如它,比精度高的模型速度不如它。平均每個物體的推理時間僅為0.7秒。
5. 交互式編輯能力
SPAR3D支持交互式編輯。用戶可以通過直接操作低分辨率點云來修改3D模型的不可見部分,系統會快速生成更新后的網格,實現高效的交互式設計。
6. 作者信息
文章第一作者Zixuan Huang為中國科學技術大學校友,目前是伊利諾伊大學香檳分校的博士生,在Stability AI主導了這項工作。
總而言之,SPAR3D 憑借其高效的重建速度、高精度的重建效果以及強大的交互式編輯能力,為3D模型設計領域帶來了性的突破,有望大幅降低3D建模的門檻,讓更多人能夠輕松上手。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。