一塊顯卡理解一部電影,最新超長(zhǎng)視頻理解大模型出爐!“大海撈針”準(zhǔn)確率近95%,代碼已開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一塊顯卡理解一部電影,最新超長(zhǎng)視頻理解大模型出爐!“大海撈針”準(zhǔn)確率近95%,代碼已開源
關(guān)鍵字:視頻,模型,視覺,數(shù)據(jù),能力
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI僅需1塊80G顯卡,大模型理解小時(shí)級(jí)超長(zhǎng)視頻。
智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校帶來最新成果超長(zhǎng)視頻理解大模型Video-XL。
它借助語言模型(LLM)的原生能力對(duì)長(zhǎng)視覺序列進(jìn)行壓縮,不僅保留了短視頻理解的能力,而且在長(zhǎng)視頻理解上展現(xiàn)了出色的泛化能力。
相較于同等參數(shù)規(guī)模的模型,Video-XL在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)的多項(xiàng)任務(wù)中排名第一。
而且在效率與性能之間實(shí)現(xiàn)了良好的平衡,僅需一塊80G顯存的顯卡即可處理2048幀輸入(對(duì)小時(shí)級(jí)長(zhǎng)度視頻采樣),并在視頻“海中撈針”任務(wù)中取得了接近95%的準(zhǔn)確率。
△圖一:不同長(zhǎng)視頻模型在單塊80G顯卡上支持的最大幀數(shù)及在Video-MME上的表現(xiàn)要知道,長(zhǎng)視頻理解是多模態(tài)大模型的核心能力之一,也是邁向通用人工智能(AGI)的關(guān)鍵一步。
然而,現(xiàn)有的多模態(tài)大模型在處理10分鐘以上的超長(zhǎng)視頻時(shí),仍然面臨性能差和效率低的雙重挑戰(zhàn)。
Video-XL正是為此而來,模型代碼均已開源。
僅需幾秒鐘,VideoXL便可以準(zhǔn)確檢索長(zhǎng)視頻中植入的廣告內(nèi)容(https:
原文鏈接:一塊顯卡理解一部電影,最新超長(zhǎng)視頻理解大模型出爐!“大海撈針”準(zhǔn)確率近95%,代碼已開源
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: