AIGC動態歡迎閱讀
原標題:還不如人類五歲小孩,難度為零的視覺測試,GPT-4o、Claude 3.5 Sonnet卻挑戰失敗了
關鍵字:模型,任務,數量,網格,視覺
文章來源:大數據文摘
內容字數:0字
內容摘要:
大數據文摘授權轉載自學術頭條
撰文:馬雪薇
GPT-4o、Claude 3.5 Sonnet 等具有視覺能力的大語言模型(LLM),是否能像人類一樣感知圖像?最新研究表明,在一套人類非常容易完成的 7 項視覺任務(比如兩個圓是否重疊、兩條線是否相交等)中,Claude 3.5 Sonnet 等四種最先進的視覺語言模型(VLM)的平均準確率只有 56.2%。它們似乎并不是在真正地“看”,而是在做有根據的猜測。
相關研究論文以“Vision language models are blind”為題,已發表在預印本網站 arXiv 上。
然而,這是否意味著這些“視覺” AI 模型毫無用處?遠非如此。VLM 在識別諸如人類行為和表情、日常物品和情境的照片等方面都表現了出很高的準確性。
正如論文作者之一 Anh Totti Nguyen 所說:“‘盲目’對人類來說就有多種不同的定義,目前還沒有一個詞可以描述 AI 對我們展示的圖像的這種盲目性,也沒有技術能夠準確地可視化模型看到的東西。它們的行為是輸入文本提示、輸入圖像和數十億權重的復雜函數。”VLM 到底有多“瞎”?研究團隊通過 7 項簡單任務
原文鏈接:還不如人類五歲小孩,難度為零的視覺測試,GPT-4o、Claude 3.5 Sonnet卻挑戰失敗了
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...