GPT-4V慘敗!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類
AIGC動態(tài)歡迎閱讀
原標題:GPT-4V慘敗!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類
關鍵字:視覺,模型,圖像,研究人員,人類
文章來源:新智元
內容字數:5297字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】多模態(tài)大模型GPT-4V也會「有眼無珠」。UC San Diego紐約大學研究人員提出全新V*視覺搜索算法逆轉LLM弱視覺宿命。Sam Altman最近在世界經濟論壇上發(fā)言,稱達到人類級別的AI很快就會降臨。
但是,正如LeCun一直以來所言,如今的AI連貓狗都不如。現(xiàn)在看來的確如此。
GPT-4V、LLaVA等多模態(tài)模型圖像理解力足以讓人驚嘆。但是,它們并非真的能夠做的面面俱到。
CV大神謝賽寧稱有一個問題讓自己徹夜難眠——
不論分辨率或場景復雜程度如何,凍結的視覺編碼器通常只能「提取一次」全局圖像token。
舉個栗子,一張雜亂的桌面上放了一個「星巴克」陶瓷杯,而且logo圖案僅漏出一半的情況下。
對此,GPT-4V卻無確識別出來,還產生了幻覺。
再比如,圖片中小孩的鞋子是什么顏色這樣直觀的問題。
GPT-4V給出了「白色」的答案。
為了解決這個LLM圖像理解的隱疾,「視覺搜索」這一關鍵方法能夠為大模型提供視覺信息。
對此,來自UC San Diego和紐約大學的研究人員提出了V*——引導視覺搜索作為多模態(tài)LLM的核心機制。
論文地址:ht
原文鏈接:GPT-4V慘敗!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。