国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Find3D：加州理工學院創新3D部件分割模型提升精確度與效率

AI工具1年前 (2024)發布 AI工具集

Find3D是一款由加州理工學院推出的先進3D部件分割模型，能夠根據任意文本查詢對對象的任意部分進行分割。其強大的數據引擎自動從互聯網收集3D資產生成訓練數據，并利用對比訓練方法構建出可擴展的3D模型。Find3D在多個數據集上表現卓越，平均交并比（mIoU）性能較次佳方法提升三倍，能夠處理來自iPhone照片和AI生成圖像的復雜3D構建。

Find3D是什么

Find3D是加州理工學院開發的一款技術先進的3D部件分割模型，能夠實現基于文本的任意對象分割。通過強大的數據引擎，該模型可以自動從網絡上獲取3D資產并生成訓練數據，無需人為干預。Find3D在Objaverse-General、ShapeNet-Part和PartNet-E等多個數據集上展現出色的性能，顯著提升了模型的交并比。

Find3D：加州理工學院創新3D部件分割模型提升精確度與效率

Find3D的主要功能

開放世界3D部分分割：用戶只需輸入文本查詢，即可識別和分割任意物體的任何部分，打破了預定義部分集的限制。
無需人工注釋：依靠數據引擎自動生成訓練數據，完全消除了人工注釋的需求。
高性能與泛化能力：在多個數據集上表現卓越，交并比（mIoU）比次佳方法高出三倍。
快速推理：相較于現有基線，推理速度提升6至300倍，大幅提高效率。
魯棒性：在多樣的物體姿態和查詢條件下，依然保持穩定的分割效果。
查詢靈活性：支持各種類型的文本查詢，涵蓋不同粒度和描述風格的部分查詢。

Find3D的技術原理

數據引擎：
- 使用2D基礎模型（如SAM和Gemini）來自動注釋3D對象。
- 將3D資產渲染為多個視圖，每個視圖均傳遞至SAM進行分割。
- 對于SAM返回的每個掩碼，查詢Gemini以獲取相應部分名稱，從而形成（掩碼，文本）對。
- 將部分名稱嵌入到視覺和語言基礎模型（如SigLIP）的潛在嵌入空間中。
- 基于投影幾何將掩碼反投影到3D點云中，創建（點，文本嵌入）對。
模型訓練：
- 采用基于Transformer的點云模型，將點云視作序列并執行塊注意力機制。
- 模型返回的點特征與文本嵌入的余弦相似度相結合，支持任意形式的文本查詢。
- 通過對比學習目標處理標簽的多義性和部分可見性問題，支持在數據引擎生成的數據上進行可擴展訓練。
對比學習目標：
- 解決每個點可能具有多個標簽的問題，以及由于每個掩碼僅覆蓋部分視圖而導致的未標記點問題。
- 基于對比學習目標，使模型能夠學習到魯棒的特征表示，從而在開放世界中實現精確的部分分割。