VLM集體「失明」？視力測試慘敗，GPT-4o、Claude 3.5全都不及格

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：VLM集體「失明」？視力測試慘敗，GPT-4o、Claude 3.5全都不及格
關鍵字：模型,任務,視覺,正方形,字母
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】視覺大語言模型在最基礎的視覺任務上集體「翻車」，即便是簡單的圖形識別都能難倒一片，或許這些最先進的VLM還沒有發展出真正的視覺能力？最新一輪的語言模型，如GPT-4o和Gemini 1.5 Pro，在發布時都被定義為「原生多模態」，能夠理解圖像、音頻、文本等多種形式的輸入。
這些多模態LLM在相關的介紹、營銷，甚至是學術論文中，都使用了「視覺能力」（visual capability）、「視覺理解」（visual understanding）這樣的表述。
這似乎是想表達，模型在某種意義上是可以看見并理解事物的，而且這種能力已經能與人類相匹配。
那么我們開一個腦洞：如果對視覺語言模型進行視力測試，它們會是標準視力5.2或是大近視眼，還是壓根啥也看不見？
一項新研究表明，大語言模型實際上并沒有像期望的擁有類人的視覺能力。事實是，它們根本就是「盲人」。
奧本大學和阿爾伯塔大學的研究人員在一系列非常簡單的視覺任務上測試了4個當今最先進的多模態模型，發現結果并不如人意。
這些任務對人類來說極其簡單，比如兩個形狀是否重疊、圖片中有多少個五邊形，或者單詞中的哪

原文鏈接：VLM集體「失明」？視力測試慘敗，GPT-4o、Claude 3.5全都不及格