AIGC動態歡迎閱讀
原標題:揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯合NUS提出LLaVA-UHD
關鍵字:圖像,報告,切片,分辨率,模型
文章來源:機器之心
內容字數:6364字
內容摘要:
機器之心專欄
機器之心編輯部GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、交互在內的多個領域都展現了出色的能力,成為如今最領先的多模態大模型。
然而,近期很多工作發現 GPT-4V 在很多基本能力上卻意外的出現短板。例如,在微軟一篇長達 166 頁的技術報告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發現,對于一個不太復雜的圖像中的蘋果數量,GPT-4V 竟然怎么數也數不對。然而,學術界和工業界尚不清楚導致這些問題的底層原因。
這個問題在清華大學、新加坡國立大學和中國科學院大學的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。論文鏈接:https://arxiv.org/pdf/2403.11703.pdf
項目鏈接:github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在:視覺編碼漏洞。
該工作對
原文鏈接:揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯合NUS提出LLaVA-UHD
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...