GPT-4V都搞不明白的未來推理有解法了！來自華科大&上科大

AIGC動態(tài)2年前 (2023)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：GPT-4V都搞不明白的未來推理有解法了！來自華科大&上科大

文章來源：量子位

內(nèi)容字數(shù)：8005字

內(nèi)容摘要：于恩投稿量子位 | 公眾號 QbitAI多模態(tài)大語言模型展現(xiàn)了強大的圖像理解和推理能力。但要讓它們基于當(dāng)前觀測來對未來進行預(yù)測推理仍然非常困難。即便是當(dāng)前最強大的GPT-4V（如下圖所示），也無法很好地解決這一問題。△ GPT-4V的錯誤案例現(xiàn)在，華科大和上科大團隊提出了一個賦予多模態(tài)大語言模型前瞻性思維的學(xué)習(xí)范式，并基于這一范式構(gòu)建了多模態(tài)大語言模型Merlin（梅林）。Merlin（梅林）是亞瑟王傳說中的一個傳奇人物，以其強大的魔法和智慧而聞名于亞瑟王傳說。傳說中梅林擁有預(yù)見未來的能力，并對命運有著深刻的理解。來看看它具體是如何做的？注：人類可以根據(jù)當(dāng)前觀測狀態(tài)來推理出即將或者接下來一段時間可能會發(fā)生的，我們將這一能力稱為前瞻性思維。一個簡單的例子：當(dāng)你在電視上觀看NBA球賽時，你可以根據(jù)場上不同球員的狀態(tài)來判斷接下來可能會出現(xiàn)的場景。比如當(dāng)一名進攻球員在持球突破防守人之后，…

原文鏈接：點此閱讀原文：GPT-4V都搞不明白的未來推理有解法了！來自華科大&上科大