AIGC動態歡迎閱讀
原標題:一張顯卡看遍天下電影!智源聯合高校開源Video-XL打破長視頻理解極限,95%準確率刷爆紀錄
關鍵字:視頻,模型,視覺,數據,能力
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部 HYZ
【新智元導讀】長視頻理解迎來新紀元!智源聯手國內多所頂尖高校,推出了超長視頻理解大模型Video-XL。僅用一張80G顯卡處理小時級視頻,未來AI看懂電影再也不是難事。長視頻理解是多模態大模型的核心能力之一,也是邁向通用人工智能(AGI)的關鍵一步。然而,現有的多模態大模型在處理10分鐘以上的超長視頻時,仍然面臨性能差和效率低的雙重挑戰。
對此,智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等多所高校,推出了小時級的超長視頻理解大模型Video-XL。
Video-XL借助語言模型(LLM)的原生能力對長視覺序列進行壓縮,不僅保留了短視頻理解的能力,而且在長視頻理解上展現了出色的泛化能力。
Video-XL相較于同等參數規模的模型,在多個主流長視頻理解基準評測的多項任務中排名第一。
此外,Video-XL在效率與性能之間實現了良好的平衡,僅需一塊80G顯存的顯卡即可處理2048幀輸入(對小時級長度視頻采樣),并在視頻「大海撈針」任務中取得了接近95%的準確率。
僅需幾秒鐘,VideoXL便可以準確檢索長視頻中植入的廣告內容(https
原文鏈接:一張顯卡看遍天下電影!智源聯合高校開源Video-XL打破長視頻理解極限,95%準確率刷爆紀錄
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...