AIGC動態歡迎閱讀
原標題:GPT-4V都搞不明白的未來推理有解法了!來自華科大&上科大
文章來源:量子位
內容字數:8005字
內容摘要:于恩 投稿量子位 | 公眾號 QbitAI多模態大語言模型展現了強大的圖像理解和推理能力。但要讓它們基于當前觀測來對未來進行預測推理仍然非常困難。即便是當前最強大的GPT-4V(如下圖所示),也無法很好地解決這一問題。△ GPT-4V的錯誤案例現在,華科大和上科大團隊提出了一個賦予多模態大語言模型前瞻性思維的學習范式,并基于這一范式構建了多模態大語言模型Merlin(梅林)。Merlin(梅林)是亞瑟王傳說中的一個傳奇人物,以其強大的魔法和智慧而聞名于亞瑟王傳說。傳說中梅林擁有預見未來的能力,并對命運有著深刻的理解。來看看它具體是如何做的?注:人類可以根據當前觀測狀態來推理出即將或者接下來一段時間可能會發生的,我們將這一能力稱為前瞻性思維。一個簡單的例子:當你在電視上觀看NBA球賽時,你可以根據場上不同球員的狀態來判斷接下來可能會出現的場景。比如當一名進攻球員在持球突破防守人之后,…
原文鏈接:點此閱讀原文:GPT-4V都搞不明白的未來推理有解法了!來自華科大&上科大
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...