零一萬物發布Yi-VL多模態語言模型并開源，測評僅次于GPT-4V

AIGC動態2年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：零一萬物發布Yi-VL多模態語言模型并開源，測評僅次于GPT-4V
關鍵字：模型,解讀,圖像,語言,數據
文章來源：AI前線
內容字數：4498字

內容摘要：

作者 | 褚杏娟
1 月 22 日，零一萬物發布 Yi Vision Language（Yi-VL）多模態語言大模型，并正式面向全球開源。Yi-VL 模型基于 Yi 語言模型開發，包括 Yi-VL-34B 和 Yi-VL-6B 兩個版本。測評：僅次于 GPT-4V根據零一萬物消息，Yi-VL 模型在英文數據集 MMMU 和中文數據集 CMMMU 上取得了領先成績，在處理復雜跨學科任務上有很好表現。
MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模態理解和推理）數據集包含了 11500 個來自六大核心學科（藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程）的問題，涉及高度異構圖像類型和交織文本圖像信息，對模型的高級知覺和推理能力提出了極高要求。
Yi-VL-34B 在該測試集上以 41.6% 的準確率超越了一系列多模態大模型，僅次于 GPT-4V（55.7%）。來源：https://mmmu-benchmark.github.io
同樣，在針對中文場景打造的 CM

原文鏈接：零一萬物發布Yi-VL多模態語言模型并開源，測評僅次于GPT-4V