InternVideo2.5 – 上海 AI Lab 聯(lián)合南大、中科院開源的視頻多模態(tài)大模型
InternVideo2.5是由上海人工智能實驗室、學(xué)和中科院深圳先進技術(shù)研究院聯(lián)合開源的一款視頻多模態(tài)大模型。該模型在視頻理解領(lǐng)域?qū)崿F(xiàn)了突破性進展,尤其在處理長視頻和細粒度時空感知方面表現(xiàn)卓越。InternVideo2.5可以處理長達萬幀的視頻,視頻處理能力較前一版本提升了六倍,能夠在長視頻中準(zhǔn)確定位目標(biāo)幀,完成高效的視頻檢索。
InternVideo2.5是什么
InternVideo2.5是一款由上海人工智能實驗室與學(xué)及中科院深圳先進技術(shù)研究院共同開發(fā)并開源的視頻多模態(tài)大模型。該模型在視頻理解領(lǐng)域取得了顯著的成果,尤其是在長視頻處理和細粒度時空感知方面表現(xiàn)出色。它能夠處理長達萬幀的視頻,與前代相比,視頻處理長度提升了六倍,使得在長視頻中精準(zhǔn)定位目標(biāo)幀成為可能,實現(xiàn)了高效的視頻檢索。該模型支持通用視頻問答,并能夠完成目標(biāo)跟蹤、分割等專業(yè)視覺任務(wù)。
InternVideo2.5的主要功能
- 超長視頻處理:InternVideo2.5具備處理長達萬幀的視頻的能力,其視頻處理長度較前代提升了六倍(從3000幀到10000幀),能夠在長視頻中精準(zhǔn)定位目標(biāo)幀,提高視頻分析的效率。
- 細粒度時空感知:該模型能夠準(zhǔn)確識別和定位視頻中的物體、場景和動作,并理解細微的時空關(guān)系。它支持通用視頻問答,能夠完成目標(biāo)跟蹤、分割等專業(yè)視覺任務(wù),并在復(fù)雜場景下識別物體的軌跡和狀態(tài)變化,為自動駕駛和監(jiān)控安防等領(lǐng)域提供精準(zhǔn)的視覺支持。
- 多模態(tài)融合:InternVideo2.5將視覺理解與語言處理深度結(jié)合,能夠根據(jù)視頻內(nèi)容生成詳盡的描述并回答用戶提問。
- 專業(yè)視覺任務(wù)支持:通過任務(wù)偏好優(yōu)化(TPO),InternVideo2.5能夠處理多種專業(yè)視覺任務(wù),如目標(biāo)跟蹤、分割和時間定位,能根據(jù)任務(wù)需求動態(tài)調(diào)整模型處理策略,以在不同場景下提供最優(yōu)的視覺分析能力。
- 高效預(yù)訓(xùn)練與優(yōu)化:InternVideo2.5采用漸進式多階段訓(xùn)練方案,使用超過30萬小時的視頻數(shù)據(jù)進行預(yù)訓(xùn)練,從而提升模型性能并降低訓(xùn)練成本。
InternVideo2.5的技術(shù)原理
- 長時豐富上下文建模(LRC):LRC通過擴展模型的上下文長度和細節(jié)感知能力,使InternVideo2.5能夠處理萬幀視頻。其核心在于:
- 視頻長度自適應(yīng)令牌表示:根據(jù)視頻的長度和內(nèi)容特征動態(tài)調(diào)整幀采樣策略。例如,短序列(如秒級視頻)采用密樣(每秒15幀),而長序列(如分鐘或小時級視頻)則采用稀疏采樣(每秒1幀),確保能夠有效捕捉不同時間尺度上的信息。
- 分層上下文壓縮(HiCo):通過分層壓縮機制,減少視頻信號中的時空冗余,同時保留關(guān)鍵信息。具體包括:
- 時空令牌合并:基于語義相似性進行令牌合并,而非簡單的基于位置的池化操作,從而在保留細節(jié)的同時顯著減少冗余信息。
- 多模態(tài)上下文整合:在語言模型處理階段,進一步整合壓縮后的視覺令牌,確保視覺與語言信息的深度融合。
- 任務(wù)偏好優(yōu)化(TPO):TPO通過將細粒度視覺任務(wù)的標(biāo)注信息轉(zhuǎn)化為可微分的任務(wù)偏好,指導(dǎo)模型學(xué)習(xí),使InternVideo2.5能夠處理多種專業(yè)視覺任務(wù)。具體實現(xiàn)方式包括:
- 任務(wù)特定組件集成:在模型中加入任務(wù)特定的組件(如時間頭、掩碼適配器等),并通過任務(wù)特定數(shù)據(jù)集進行訓(xùn)練。
- 視覺概念預(yù)訓(xùn)練:使用大量圖像和視頻文本對進行預(yù)訓(xùn)練,進一步提升模型的視覺理解能力。
- 漸進式多階段訓(xùn)練方案:InternVideo2.5采用漸進式多階段訓(xùn)練方案,逐步提升模型性能:
- 基礎(chǔ)學(xué)習(xí)階段:進行任務(wù)識別指令調(diào)整和視頻語言對齊訓(xùn)練。
- 細粒度感知訓(xùn)練階段:通過集成任務(wù)特定組件和視覺概念預(yù)訓(xùn)練,增強視覺理解能力。
- 綜合優(yōu)化階段:在混合語料庫上進行多任務(wù)訓(xùn)練和指令調(diào)整,優(yōu)化所有模型組件。
- 高效分布式系統(tǒng):為支持大規(guī)模視頻數(shù)據(jù)的訓(xùn)練和測試,InternVideo2.5開發(fā)了基于多模態(tài)序列并行的分布式系統(tǒng)。該系統(tǒng)結(jié)合了序列和張量的分布式處理,以及動態(tài)數(shù)據(jù)打包技術(shù),顯著提高了訓(xùn)練效率。
InternVideo2.5的項目地址
- Github倉庫:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
- HuggingFace模型庫:https://huggingface.co/OpenGVLab/InternVideo2_5
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.12386
InternVideo2.5的應(yīng)用場景
- 視頻內(nèi)容理解與檢索:InternVideo2.5能夠根據(jù)用戶的文本查詢快速找到相關(guān)視頻內(nèi)容,支持復(fù)雜的視頻檢索任務(wù)。
- 視頻編輯與創(chuàng)作:該模型能夠為視頻編輯提供智能支持,例如自動生成精彩片段、生成字幕或解說詞,提升視頻創(chuàng)作的效率。
- 監(jiān)控安防:在監(jiān)控安防領(lǐng)域,InternVideo2.5能夠?qū)崟r分析監(jiān)控視頻,快速定位異常并發(fā)出警報。
- 自動駕駛:InternVideo2.5能夠?qū)崟r處理自動駕駛車輛的攝像頭數(shù)據(jù),準(zhǔn)確識別道路標(biāo)志、交通信號和障礙物。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...