AIGC動態歡迎閱讀
原標題:騰訊發布實體任務規劃基準,GPT-4V也頻頻出錯!邁向大模型與物理世界交互!
關鍵字:任務,模型,目標,騰訊,視覺
文章來源:夕小瑤科技說
內容字數:8400字
內容摘要:
夕小瑤科技說 原創作者 | 智商掉了一地、Python多模態大型語言模型(MLLM)目前主要通過數字化的方式與信息世界進行交互,涉及自然語言處理、計算機視覺和多模態生成任務等領域。然而,將這些模型引入物理世界時,我們要求它們不僅能夠在虛擬環境中執行任務,還要具備理解和參與現實生活場景的能力。從機器人執行物理任務到語言模型在實際環境中規劃任務的能力,大型模型與物理世界的交互將為人工智能的發展開辟嶄新的篇章。
MLLM 能夠有效整合不同來源的信息,包括實時任務進展、視覺觀察以及開放式語言指令等多樣化的上下文輸入。這種整合能力使模型能夠更全面地理解周圍環境,并且能夠根據任務目標生成相應路徑規劃。具體來說:
實時任務進展:提供了關于任務當前狀態的關鍵信息;
視覺觀察:使模型能夠感知環境中的物體、狀態變化和空間關系;
開放式語言指令:為模型提供了任務的高層描述和指導。
騰訊提出的 EgoPlan-Bench 通過考慮任務的高層目標、當前視覺觀察和語言指令,使模型能夠預測下一個可行的動作。這種規劃能力讓模型仿佛具有自主思考和執行任務的能力,能夠逐步執行動作。與傳統的自我中心視頻問答基準不同,Ego
原文鏈接:騰訊發布實體任務規劃基準,GPT-4V也頻頻出錯!邁向大模型與物理世界交互!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...