AIGC動態歡迎閱讀
原標題:GPT-4o僅排第二!北大港大等6所高校聯手,發布權威多模態大模型榜單!
關鍵字:視頻,模型,字幕,音頻,問題
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年多模態大模型視頻分析能力榜單出爐:
Gemini 1.5 Pro最強,GPT-4o僅排第二? 曾經紅極一時的GPT-4V屈居第三。
最近,北大港大等6所高校聯手,發布首個專為視頻分析設計的多模態大模型評估基準——Video-MME。在該基準中,冠軍Gemini 1.5 Pro甩開第二名GPT-4o近10分,第三名GPT-4V近15分。
而在開源模型中,最高分為LLaVA-NeXT-Video,但總體準確率只有52.5%,遠遠不及商業模型,還有較大提升空間。
論文標題:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
論文鏈接:https://arxiv.org/pdf/2405.21075
Video-MME是首個專為視頻分析設計的多模態大模型評估基準,包含900段視頻,并為每段視頻設計了2,700個高質量的多選題,如下圖例子所示:
Video-MME涵蓋6大視覺領域,包括知識、電影與電視、體育競賽、藝術表
原文鏈接:GPT-4o僅排第二!北大港大等6所高校聯手,發布權威多模態大模型榜單!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189