無需訓練
NumPro:提升視頻大模型時序定位能力的創新方法
NumPro團隊通過創新方法顯著提高了視頻大語言模型(Vid-LLMs)在視頻時序定位任務中的表現。該方法靈感來源于漫畫,通過在視頻幀上添加數字標識符,將時序信息與視覺內容直接關聯,類似于漫畫中編號的畫格,引導觀眾理解故事的順序。
一、背景與挑戰
盡管Vid-LLMs在視頻內容理解上取得了顯著進展,但在視頻時序定位(Video Temporal Grounding,VTG)任務中仍面臨挑戰。例如,精確定位視頻中的發生時刻對于實際應用至關重要,但現有模型很難做到這一點。傳統方法通常需要大量的訓練和復雜的適配,限制了其靈活性和可遷移性。
二、NumPro的實現
NumPro的核心創新在于其訓練的設置。該方法無需額外訓練,通過為每個視頻幀標記幀號,利用Vid-LLMs的光學字符識別(OCR)能力,模型可以輕松“讀取”時間線。通過添加簡單指令,告知模型幀號的含義,從而實現幀級邊界的準確識別。
三、微調優化設置
為了進一步提升性能,研究團隊還提出了NumPro-FT,通過在NumPro增強數據集上對Vid-LLMs進行微調,將幀號與訓練數據中的時間跨度對齊。微調過程中,僅對視覺投影儀和大語言模型(LLM)組件進行優化,采用低秩適應(LoRA)技術,有效減少了參數數量和訓練開銷。
四、設計優化與實驗結果
研究團隊對字體大小、顏色和位置進行了優化,最終確定了最佳設計為字體大小40、顏色紅色、位置右下角。在標準VTG基準測試中,NumPro表現卓越,尤其是在Moment Retrieval任務中,其性能接近或超過了以往的最優水平。經過NumPro-FT微調后,模型在多個數據集上的指標大幅超越現有SOTA。
五、廣泛適用性與未來展望
NumPro不僅在領先模型上效果顯著,還可以廣泛應用于多種Vid-LLMs,如LLaVA-Video-7B和Qwen2-VL-72B等。結合微調時,NumPro-FT的表現始終優于傳統微調方法,尤其在較長視頻數據集上表現突出。在通用視頻問答任務中,NumPro對一般理解指標影響極小,顯示出其在提升視頻時序定位能力的巨大潛力。
總之,NumPro的創新方法為視頻理解領域帶來了新的突破,預示著未來在視頻分析和應用中的廣泛前景。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破