DINO-X：通用視覺大模型助力智能識別與分析的新時代

DINO-X是一款由IDEA研究院開發的先進視覺大模型，具有開放世界對象檢測與理解的強大能力。該模型支持文本、視覺及定制提示，能夠自動識別圖像中的各種對象，無需用戶輸入。DINO-X基于超過1億樣本的Grounding-100M數據集，在COCO、LVIS-minival及LVIS-val等多個基準測試中創造了新的性能記錄。該產品分為兩個版本：DINO-X Pro，專注于卓越的感知能力；以及DINO-X Edge，優化推理速度，適合邊緣計算應用。DINO-X在長尾物體識別方面表現尤為出色，廣泛適用于自動駕駛、智能安防等領域，為行業的智能化升級注入了新的動力。

DINO-X是什么

DINO-X是IDEA研究院推出的通用視覺大模型，具備開放世界對象檢測與理解能力。支持文本、視覺和定制提示，能識別圖像中的任何對象而無需用戶提示。基于超過1億樣本的Grounding-100M數據集，DINO-X在COCO、LVIS-minival和LVIS-val基準測試中刷新性能記錄。模型包含DINO-X Pro和DINO-X Edge兩個版本，前者提供強大的感知能力，后者優化推理速度，適合邊緣部署。DINO-X在長尾物體識別上表現出色，能廣泛應用于自動駕駛、智能安防等領域，為產業升級帶來新動力。

DINO-X的主要功能

開放世界對象檢測與分割：能夠檢測和分割圖像中的多種對象，包括長尾類別中不常見的物體。
短語定位：根據用戶提供的文本短語，精確定位圖像中的相應對象。
視覺提示計數：利用視覺提示，如繪制邊界框或點，來統計特定對象的數量。
姿態估計：預測圖像中人物或特定類別的關鍵點，例如人體或手部的姿態。
無提示對象檢測與識別：支持無需任何提示即可檢測到圖像中的各種對象。
密集區域字幕：為圖像中的特定區域生成詳細的描述性字幕。
基于對象的問答：能回答關于圖像中特定對象的提問。

DINO-X的技術原理

Transformer編碼器-解碼器架構：采用Transformer架構，利用編碼器提取圖像特征，解碼器則負責對象檢測與理解。
多模態預訓練：在大規模Grounding-100M數據集上進行預訓練，使DINO-X學習到豐富的視覺與語言特征，增強其開放詞匯的檢測能力。
提示擴展：支持文本提示、視覺提示及定制提示，適應更廣泛的檢測場景。
多感知頭集成：集成多種感知頭，如邊界框頭、分割頭、關鍵點頭和語言頭，以支持多樣化的感知與理解任務。
兩階段訓練策略：
- 第一階段：聯合訓練文本提示檢測、視覺提示檢測和對象分割任務。
- 第二階段：凍結DINO-X主干，單獨訓練關鍵點頭和語言頭，擴展模型的細粒度感知與理解能力。
知識蒸餾與FP16推理優化：通過知識蒸餾技術從Pro模型提取知識，并利用FP16量化技術提升推理速度。
語言頭設計：DINO-X的語言頭借助凍結的DINO-X提取對象標簽，并與任務標簽結合，通過自回歸方式生成響應輸出。