一塊顯卡理解一部電影，最新超長視頻理解大模型出爐！“大海撈針”準確率近95%，代碼已開源

AIGC動態歡迎閱讀

原標題：一塊顯卡理解一部電影，最新超長視頻理解大模型出爐！“大海撈針”準確率近95%，代碼已開源
關鍵字：視頻,模型,視覺,數據,能力
文章來源：量子位
內容字數：0字

內容摘要：

允中發自凹非寺量子位 | 公眾號 QbitAI僅需1塊80G顯卡，大模型理解小時級超長視頻。
智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等多所高校帶來最新成果超長視頻理解大模型Video-XL。
它借助語言模型（LLM）的原生能力對長視覺序列進行壓縮，不僅保留了短視頻理解的能力，而且在長視頻理解上展現了出色的泛化能力。
相較于同等參數規模的模型，Video-XL在多個主流長視頻理解基準評測的多項任務中排名第一。
而且在效率與性能之間實現了良好的平衡，僅需一塊80G顯存的顯卡即可處理2048幀輸入（對小時級長度視頻采樣），并在視頻“海中撈針”任務中取得了接近95%的準確率。
△圖一：不同長視頻模型在單塊80G顯卡上支持的最大幀數及在Video-MME上的表現要知道，長視頻理解是多模態大模型的核心能力之一，也是邁向通用人工智能（AGI）的關鍵一步。
然而，現有的多模態大模型在處理10分鐘以上的超長視頻時，仍然面臨性能差和效率低的雙重挑戰。
Video-XL正是為此而來，模型代碼均已開源。
僅需幾秒鐘，VideoXL便可以準確檢索長視頻中植入的廣告內容（https: