GPT-4V慘敗！CV大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：GPT-4V慘?。V大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類
關鍵字：視覺,模型,圖像,研究人員,人類
文章來源：新智元
內容字數：5297字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】多模態大模型GPT-4V也會「有眼無珠」。UC San Diego紐約大學研究人員提出全新V*視覺搜索算法逆轉LLM弱視覺宿命。Sam Altman最近在世界經濟論壇上發言，稱達到人類級別的AI很快就會降臨。
但是，正如LeCun一直以來所言，如今的AI連貓狗都不如?，F在看來的確如此。
GPT-4V、LLaVA等多模態模型圖像理解力足以讓人驚嘆。但是，它們并非真的能夠做的面面俱到。
CV大神謝賽寧稱有一個問題讓自己徹夜難眠——
不論分辨率或場景復雜程度如何，凍結的視覺編碼器通常只能「提取一次」全局圖像token。
舉個栗子，一張雜亂的桌面上放了一個「星巴克」陶瓷杯，而且logo圖案僅漏出一半的情況下。
對此，GPT-4V卻無確識別出來，還產生了幻覺。
再比如，圖片中小孩的鞋子是什么顏色這樣直觀的問題。
GPT-4V給出了「白色」的答案。
為了解決這個LLM圖像理解的隱疾，「視覺搜索」這一關鍵方法能夠為大模型提供視覺信息。
對此，來自UC San Diego和紐約大學的研究人員提出了V*——引導視覺搜索作為多模態LLM的核心機制。
論文地址：ht

原文鏈接：GPT-4V慘?。V大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類

聯系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # 人類 # 圖像 # 模型 # 研究人員 # 視覺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

GPT-4V慘敗！CV大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類

AIGC動態歡迎閱讀

內容摘要：

聯系作者

蘋果 Vision Pro 正式開啟預定，我們找到了這些關鍵參數

iPhone16將新增拍照按鈕/支付寶發布新logo/網易被曝大規模裁員，內部人士回應

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

GPT-4V慘敗！CV大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類

AIGC動態歡迎閱讀

內容摘要：

聯系作者

蘋果 Vision Pro 正式開啟預定，我們找到了這些關鍵參數

iPhone16將新增拍照按鈕/支付寶發布新logo/網易被曝大規模裁員，內部人士回應

相關文章

暫無評論

ChatGPT

玩虛擬模特？

GPT-4V慘敗！CV大神謝賽寧新作：V*重磅「視覺搜索」算法讓LLM理解力逼近人類

蘋果 Vision Pro 正式開啟預定，我們找到了這些關鍵參數

玩虛擬模特？