Migician – 北交大聯(lián)合清華、華中科大推出的多模態(tài)視覺(jué)定位模型
Migician是什么
Migician是由北京交通大學(xué)、華中科技大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)聯(lián)合開(kāi)發(fā)的多模態(tài)大語(yǔ)言模型(MLLM),旨在應(yīng)對(duì)形式的多圖像定位(Multi-Image Grounding,MIG)任務(wù)。該模型基于大規(guī)模訓(xùn)練數(shù)據(jù)集MGrounding-630k,能夠根據(jù)不同形式的查詢(如文本描述、圖像或兩者結(jié)合)在多幅圖像中識(shí)別并精確定位相關(guān)視覺(jué)區(qū)域。Migician通過(guò)兩階段訓(xùn)練方法,結(jié)合了多圖像理解和單圖像定位的能力,實(shí)現(xiàn)在復(fù)雜視覺(jué)場(chǎng)景中的高效應(yīng)用,推動(dòng)了多模態(tài)模型在細(xì)粒度視覺(jué)定位方面的進(jìn)展。
Migician的主要功能
- 跨圖像定位:在多幅圖像中精確查找與查詢相關(guān)的對(duì)象或區(qū)域,并提供其確切位置(如坐標(biāo)框)。
- 靈活的輸入形式:支持多種查詢方式,包括文本、圖像或兩者的組合,比如“在圖2中找出顏色不同但與圖1相似的物體”。
- 多任務(wù)支持:能夠處理多種與多圖像相關(guān)的任務(wù),包括對(duì)象跟蹤、差異識(shí)別和共同對(duì)象定位等。
- 高效推理:利用端到端的模型設(shè)計(jì),直接在多圖像場(chǎng)景中進(jìn)行推理,避免了傳統(tǒng)方法中多步驟推理帶來(lái)的復(fù)雜性和錯(cuò)誤傳播問(wèn)題。
Migician的技術(shù)原理
- 端到端的多圖像定位框架:采用端到端的架構(gòu)直接處理多圖像定位任務(wù),省去任務(wù)分解為多個(gè)子任務(wù)的復(fù)雜性和效率問(wèn)題,能夠根據(jù)查詢直接輸出目標(biāo)對(duì)象的位置。
- 大規(guī)模指令調(diào)優(yōu)數(shù)據(jù)集(MGrounding-630k):包含超過(guò)63萬(wàn)條多圖像定位任務(wù)的數(shù)據(jù),涵蓋多種任務(wù)類型(如靜態(tài)差異定位、共同對(duì)象定位和對(duì)象跟蹤等),結(jié)合形式的指令,使模型學(xué)習(xí)到多樣化的定位能力。
- 兩階段訓(xùn)練方法:
- 第一階段:在多種多圖像任務(wù)上進(jìn)行訓(xùn)練,學(xué)習(xí)基本的多圖像理解和定位能力。
- 第二階段:通過(guò)形式的指令調(diào)優(yōu),提升模型在復(fù)雜查詢下的定位能力,確保適應(yīng)多樣化任務(wù)。
- 多模態(tài)融合與推理:結(jié)合視覺(jué)和語(yǔ)言模態(tài)的信息,通過(guò)多模態(tài)融合實(shí)現(xiàn)對(duì)復(fù)雜查詢的理解與定位,處理抽象的視覺(jué)語(yǔ)義信息,例如通過(guò)對(duì)比、相似性或功能關(guān)聯(lián)來(lái)定位目標(biāo)對(duì)象。
- 模型合并技術(shù):采用模型合并技術(shù),平均不同訓(xùn)練階段的權(quán)重,以優(yōu)化整體性能。
Migician的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://migician-vg.github.io/
- GitHub倉(cāng)庫(kù):https://github.com/thunlp/Migician
- HuggingFace模型庫(kù):https://huggingface.co/Michael4933/Migician
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.05767
Migician的應(yīng)用場(chǎng)景
- 自動(dòng)駕駛:快速識(shí)別車輛周圍的目標(biāo)(如行人、障礙物),支持多視角感知與動(dòng)態(tài)目標(biāo)跟蹤。
- 安防監(jiān)控:通過(guò)多攝像頭聯(lián)動(dòng)識(shí)別異常行為或目標(biāo),分析人群聚集、快速移動(dòng)等異常情況。
- 機(jī)器人交互:精準(zhǔn)定位目標(biāo)物體,支持機(jī)器人在復(fù)雜環(huán)境中執(zhí)行抓取、導(dǎo)航等任務(wù)。
- 圖像編輯:分析多幅圖像內(nèi)容,實(shí)現(xiàn)對(duì)象替換、刪除或創(chuàng)造性內(nèi)容生成。
- 醫(yī)療影像:融合多模態(tài)影像,迅速定位病變區(qū)域或異常組織,支持動(dòng)態(tài)監(jiān)測(cè)。
常見(jiàn)問(wèn)題
- Migician支持哪些類型的查詢? Migician支持文本描述、圖像或兩者結(jié)合的形式查詢。
- 如何獲取Migician的模型? 您可以通過(guò)其項(xiàng)目官網(wǎng)、GitHub倉(cāng)庫(kù)或HuggingFace模型庫(kù)下載模型。
- Migician適用于哪些行業(yè)? Migician廣泛應(yīng)用于自動(dòng)駕駛、安防監(jiān)控、機(jī)器人交互、圖像編輯和醫(yī)療影像等多個(gè)領(lǐng)域。
- 如何提升模型的定位精度? 通過(guò)提供清晰、具體的查詢指令,可以有效提升模型的定位精度。
# AI工具# AI項(xiàng)目和框架# 個(gè)性化音樂(lè)生成# 多樣化樂(lè)器模擬# 實(shí)時(shí)音樂(lè)創(chuàng)作# 智能音樂(lè)推薦# 音頻效果處理
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...


粵公網(wǎng)安備 44011502001135號(hào)