MMMU華人團隊更新Pro版！多模態基準升至史詩級難度：過濾純文本問題、引入純視覺問答

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：MMMU華人團隊更新Pro版！多模態基準升至史詩級難度：過濾純文本問題、引入純視覺問答
關鍵字：模型,問題,視覺,性能,基準
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】MMMU-Pro通過三步構建過程（篩選問題、增加候選選項、引入純視覺輸入設置）更嚴格地評估模型的多模態理解能力；模型在新基準上的性能下降明顯，表明MMMU-Pro能有效避免模型依賴捷徑和猜測策略的情況。多模態大型語言模型（MLLMs）在各個排行榜上展現的性能不斷提升，例如GPT-4o在大學水平上的多學科多模態理解和推理（MMMU）基準測試中取得了69.1%的準確率。
不過，基準測試結果是否真的能反映模型對多樣化主題的深入理解，仍然有爭議，或者說模型是否只是利用了統計模式，而非依靠理解和推理的情況下就能得出正確答案？
為了解決這一問題并推動多模態AI評估的邊界，MMMU團隊對MMMU基準在健壯性和問題難度上進行提升，新基準MMMU-Pro能夠更準確、更嚴格地評估模型在廣泛的學科領域內真正的多模態理解和推理能力。論文鏈接：https://arxiv.org/abs/2409.02813
MMMU-Pro的構建過程包括三步：
1. 過濾掉純文本模型可回答的問題；
2. 由人類專家將候選選項增加到 10 個，以減少模型蒙對答案的概率；
3. 引入純視覺輸

原文鏈接：MMMU華人團隊更新Pro版！多模態基準升至史詩級難度：過濾純文本問題、引入純視覺問答