PrimitiveAnything – 騰訊聯合清華大學推出的新型3D形狀生成框架
PrimitiveAnything是什么
PrimitiveAnything是由騰訊人工智能平臺部(AIPD)與清華大學共同研發的一款創新性3D形狀生成框架。該框架將復雜的3D形狀分解為簡單的基元元素,通過自回歸方式生成這些基元,最終再將它們組合成完整的3D形狀。其核心優勢體現在高質量的生成效果、強大的泛化能力以及高效的處理速度。
主要功能
- 高質量的3D原語組裝生成:能夠生成幾何上高度忠實于原始模型的3D原語組裝,同時符合人類對形狀的直觀理解。
- 多樣化的3D內容創作:支持基于文本或圖像的條件生成3D內容,為用戶提供靈活的創作方式。
- 高效的存儲與編輯:由于采用原語表示,生成的3D模型在存儲效率上更優,同時也便于后續編輯和調整。
- 自回歸變換器架構:借助自回歸變換器逐幀生成3D原語,能夠處理不同長度的原語序列,并輕松擴展至新的原語類型。
- 無歧義的參數化方案:通過消除參數化中的歧義,確保模型在訓練和生成過程中保持穩定和準確。
- 幾何保真度與語義一致性:在生成過程中,PrimitiveAnything確保高幾何保真度,并能產生符合人類認知的語義分解結果。
- 模塊化設計:框架的模塊化設計支持無縫集成新的原語類型,無需調整整體架構,能夠適應不同的原語表示方式。
技術原理
- 無歧義的參數化方案
- 統一表示:使用多種基元類型(如立方體、橢圓柱體和橢球體)在統一的參數化框架下表示3D形狀,每種基元的類型、位置、旋轉和縮放等屬性都被編碼,并輸入到模型中。
- 消除歧義:為解決參數化中的歧義,研究團隊制定了一整套規則,通過分析基元的對稱性,選取旋轉參數L1范數最小的一組作為唯一表示,從而確保訓練過程的穩定性和準確性。
- 自回歸變換器架構
- 形狀條件化:框架采用基于解碼器的Transformer架構,能夠根據形狀特征生成可變長度的基元序列。首先通過點云編碼器提取3D形狀的特征表示,然后自回歸Transformer模型接收這些特征和之前生成的基元信息,預測下一個基元的特征。
- 級聯解碼器:為了捕捉基元屬性之間的依賴關系,框架使用級聯解碼器依次預測基元的類型、位置、旋轉和縮放等屬性,反映基元屬性之間的自然關聯,符合人類的組裝邏輯。
- 自回歸生成流程
- 序列生成:將整個基元生成過程視為一個序列生成任務,模型以點云作為輸入條件,自回歸地生成基元序列,直至預測出結束標記。
- 訓練目標:在訓練過程中,結合交叉熵損失、Chamfer距離(用于重構準確性)和Gumbel-Softmax(用于可微采樣),直到生成序列的結束標記,從而靈活且類人地分解復雜的3D形狀。
項目地址
- 項目官網:https://primitiveanything.github.io/
- Github倉庫:https://github.com/PrimitiveAnything/PrimitiveAnything
- HuggingFace模型庫:https://huggingface.co/hyz317/PrimitiveAnything
- arXiv技術論文:https://arxiv.org/pdf/2505.04622
應用場景
- 3D建模與設計:PrimitiveAnything能夠迅速生成復雜3D模型的“幾何骨架”,設計師可在此基礎上專注細節,顯著提升工作效率與設計速度。
- 游戲資產生成:游戲設計師可以利用PrimitiveAnything快速生成多樣的游戲場景和角色模型,提高開發效率。玩家也能通過簡單的幾何積木拼接創造新角色或道具,AI將自動進行優化調整,并無縫集成到物理引擎中。
- 用戶生成內容(UGC):該框架支持根據文本或圖像生成3D內容,用戶可以輕松編輯生成的結果,為游戲中的UGC提供新的可能性。
- 虛擬現實(VR)和增強現實(AR):在虛擬現實和增強現實環境中,PrimitiveAnything可以快速生成逼真的3D對象,增強用戶體驗。
常見問題
如需了解更多關于PrimitiveAnything的信息,請訪問項目官網或相關鏈接,獲取詳細資料和使用指南。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...