Find3D是一款由加州理工學院推出的先進3D部件分割模型,能夠根據任意文本查詢對對象的任意部分進行分割。其強大的數據引擎自動從互聯網收集3D資產生成訓練數據,并利用對比訓練方法構建出可擴展的3D模型。Find3D在多個數據集上表現卓越,平均交并比(mIoU)性能較次佳方法提升三倍,能夠處理來自iPhone照片和AI生成圖像的復雜3D構建。
Find3D是什么
Find3D是加州理工學院開發的一款技術先進的3D部件分割模型,能夠實現基于文本的任意對象分割。通過強大的數據引擎,該模型可以自動從網絡上獲取3D資產并生成訓練數據,無需人為干預。Find3D在Objaverse-General、ShapeNet-Part和PartNet-E等多個數據集上展現出色的性能,顯著提升了模型的交并比。
Find3D的主要功能
- 開放世界3D部分分割:用戶只需輸入文本查詢,即可識別和分割任意物體的任何部分,打破了預定義部分集的限制。
- 無需人工注釋:依靠數據引擎自動生成訓練數據,完全消除了人工注釋的需求。
- 高性能與泛化能力:在多個數據集上表現卓越,交并比(mIoU)比次佳方法高出三倍。
- 快速推理:相較于現有基線,推理速度提升6至300倍,大幅提高效率。
- 魯棒性:在多樣的物體姿態和查詢條件下,依然保持穩定的分割效果。
- 查詢靈活性:支持各種類型的文本查詢,涵蓋不同粒度和描述風格的部分查詢。
Find3D的技術原理
- 數據引擎:
- 使用2D基礎模型(如SAM和Gemini)來自動注釋3D對象。
- 將3D資產渲染為多個視圖,每個視圖均傳遞至SAM進行分割。
- 對于SAM返回的每個掩碼,查詢Gemini以獲取相應部分名稱,從而形成(掩碼,文本)對。
- 將部分名稱嵌入到視覺和語言基礎模型(如SigLIP)的潛在嵌入空間中。
- 基于投影幾何將掩碼反投影到3D點云中,創建(點,文本嵌入)對。
- 模型訓練:
- 采用基于Transformer的點云模型,將點云視作序列并執行塊注意力機制。
- 模型返回的點特征與文本嵌入的余弦相似度相結合,支持任意形式的文本查詢。
- 通過對比學習目標處理標簽的多義性和部分可見性問題,支持在數據引擎生成的數據上進行可擴展訓練。
- 對比學習目標:
- 解決每個點可能具有多個標簽的問題,以及由于每個掩碼僅覆蓋部分視圖而導致的未標記點問題。
- 基于對比學習目標,使模型能夠學習到魯棒的特征表示,從而在開放世界中實現精確的部分分割。
Find3D的項目地址
- 項目官網:ziqi-ma.github.io/find3dsite
- GitHub倉庫:https://github.com/ziqi-ma/Find3D
- arXiv技術論文:https://arxiv.org/pdf/2411.13550v1
- 在線體驗Demo:https://huggingface.co/spaces/ziqima/Find3D
Find3D的應用場景
- 機器人視覺與操作:在機器人技術中,幫助機器人識別和定位物體的特定部分,進行精準的抓取和操作。
- 虛擬現實(VR)和增強現實(AR):在VR/AR應用中,提升用戶與虛擬環境的互動體驗,提供更深層次的虛擬物體理解。
- 計算機輔助設計(CAD):在CAD軟件中,幫助設計師快速識別和編輯3D模型的特定部分,大幅提升設計效率。
- 游戲開發:在游戲開發中,創造更復雜的3D物體互動,例如角色裝備的更換或物體破壞效果。
- 建筑和工程:在建筑和工程領域,輔助分析和理解復雜的3D結構,如建筑模型或機械部件。
常見問題
- Find3D支持哪些類型的文本查詢?:Find3D支持多種類型的文本查詢,包括不同粒度和描述風格的部分查詢。
- 如何獲取Find3D的技術文檔?:您可以通過項目官網或GitHub倉庫獲取詳細的技術文檔和使用說明。
- Find3D的推理速度有多快?:Find3D的推理速度比現有基線快6到300倍,顯著提高了效率。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...