LLMDet – 阿里通義聯(lián)合中山大學(xué)等機構(gòu)推出的開放詞匯目標檢測模型
LLMDet是由阿里巴巴集團通義實驗室、中山大學(xué)計算機科學(xué)與工程學(xué)院、鵬城實驗室等機構(gòu)聯(lián)合推出的一款開放詞匯目標檢測器。它通過與大型語言模型(LLM)的協(xié)同訓(xùn)練,顯著提升了目標檢測的性能。LLMDet利用GroundingCap-1M數(shù)據(jù)集,結(jié)合圖像、定位標簽和詳盡的圖像描述,生成豐富的視覺特征,并通過標準的定位損失和描述生成損失進行訓(xùn)練。其在多個基準測試中展現(xiàn)出卓越的零樣本檢測能力,作為強大的視覺基礎(chǔ)模型,LLMDet能夠進一步支持構(gòu)建更先進的多模態(tài)模型,實現(xiàn)與LLM之間的互利共贏。
LLMDet是什么
LLMDet是一款由阿里巴巴集團通義實驗室、中山大學(xué)計算機科學(xué)與工程學(xué)院以及鵬城實驗室等機構(gòu)聯(lián)合開發(fā)的開放詞匯目標檢測系統(tǒng)。該系統(tǒng)通過與大型語言模型(LLM)的協(xié)同訓(xùn)練,顯著提高了目標檢測的效果。LLMDet可以構(gòu)建一個包含圖像、定位標簽和詳細圖像描述的數(shù)據(jù)集(GroundingCap-1M),并利用LLM生成的長描述來豐富視覺特征。其訓(xùn)練過程基于標準的定位損失和描述生成損失。LLMDet在多個基準測試中展現(xiàn)了出色的零樣本檢測能力,作為一種強大的視覺基礎(chǔ)模型,有助于構(gòu)建更為強大的多模態(tài)模型,實現(xiàn)與LLM的雙贏。
LLMDet的主要功能
- 開放詞匯檢測:LLMDet能夠識別訓(xùn)練階段未見過的任何類別目標,通過文本標簽與視覺特征的對齊,實現(xiàn)新類別的識別。
- 零樣本遷移能力:在沒有目標類別標記的情況下,LLMDet可以直接遷移到新的數(shù)據(jù)集進行檢測,展現(xiàn)出極強的泛化能力。
- 圖像理解與描述生成:該系統(tǒng)能夠生成詳細的圖像描述,包含豐富的細節(jié)信息,如對象類型、紋理、顏色和動作等,幫助模型更好地理解圖像內(nèi)容。
- 提升多模態(tài)模型性能:作為一個視覺基礎(chǔ)模型,LLMDet與大型語言模型結(jié)合,助力構(gòu)建更強大的多模態(tài)模型,提升視覺問答、圖像描述等任務(wù)的表現(xiàn)。
LLMDet的技術(shù)原理
- 數(shù)據(jù)集構(gòu)建:LLMDet基于GroundingCap-1M數(shù)據(jù)集,每張圖像都配有定位標簽和詳細描述,豐富的描述有助于模型更好地理解圖像中的對象及其關(guān)系。
- 模型架構(gòu):該系統(tǒng)由標準的開放詞匯目標檢測器與LLM組成,檢測器負責提取圖像特征并定位目標,LLM則利用這些特征生成詳細的圖像描述和區(qū)域級短語。
- 協(xié)同訓(xùn)練:LLMDet通過兩個階段的訓(xùn)練實現(xiàn)與LLM的協(xié)同優(yōu)化,首先訓(xùn)練投影器將檢測器的特征映射到LLM的輸入空間,隨后將檢測器、投影器和LLM作為整體進行微調(diào),訓(xùn)練目標包括標準的定位損失和描述生成損失。
- 多任務(wù)學(xué)習(xí):LLMDet引入圖像級和區(qū)域級的描述生成任務(wù),通過生成詳細的描述來豐富視覺特征,提升模型對圖像的整體理解能力。多任務(wù)學(xué)習(xí)方式有效提高了檢測性能,增強了模型的開放詞匯能力。
LLMDet的項目地址
- GitHub倉庫:https://github.com/iSEE-Laboratory/LLMDet
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.18954
LLMDet的應(yīng)用場景
- 智能安防:實時監(jiān)測攝像頭畫面中的異常目標或行為,具備強大的適應(yīng)性,無需額外訓(xùn)練。
- 自動駕駛:幫助車輛識別道路上的各類障礙物和未見過的場景,從而提升安全性和可靠性。
- 圖像內(nèi)容審核:自動對圖像內(nèi)容進行審核,識別違規(guī)或不當內(nèi)容,提高審核效率。
- 智能相冊管理:自動對照片進行分類和標注,方便用戶搜索和管理,支持多種未見過的類別。
- 醫(yī)療影像分析:對醫(yī)學(xué)影像進行分析,快速識別異常區(qū)域,降低對大量標注數(shù)據(jù)的需求。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...