GPT-4o僅排第二！北大港大等6所高校聯手，發布權威多模態大模型榜單！

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：GPT-4o僅排第二！北大港大等6所高校聯手，發布權威多模態大模型榜單！
關鍵字：視頻,模型,字幕,音頻,問題
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 謝年年多模態大模型視頻分析能力榜單出爐：
Gemini 1.5 Pro最強，GPT-4o僅排第二？曾經紅極一時的GPT-4V屈居第三。
最近，北大港大等6所高校聯手，發布首個專為視頻分析設計的多模態大模型評估基準——Video-MME。在該基準中，冠軍Gemini 1.5 Pro甩開第二名GPT-4o近10分，第三名GPT-4V近15分。
而在開源模型中，最高分為LLaVA-NeXT-Video，但總體準確率只有52.5%，遠遠不及商業模型，還有較大提升空間。
論文標題:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
論文鏈接：https://arxiv.org/pdf/2405.21075
Video-MME是首個專為視頻分析設計的多模態大模型評估基準，包含900段視頻，并為每段視頻設計了2,700個高質量的多選題，如下圖例子所示：
Video-MME涵蓋6大視覺領域，包括知識、電影與電視、體育競賽、藝術表

原文鏈接：GPT-4o僅排第二！北大港大等6所高校聯手，發布權威多模態大模型榜單！

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文