導航、采礦、建造，北大這個新智能體把《我的世界》玩透了

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：導航、采礦、建造，北大這個新智能體把《我的世界》玩透了
關鍵字：物體,任務,視覺,上下文,團隊
文章來源：機器之心
內容字數：0字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com該研究成果由來自北京大學的蔡少斐、王子豪、連可為、牟湛存、來自北京通用人工智能研究院的馬曉健研究員、來自加州大學洛杉磯分校的劉安吉共同完成。通訊作者為北京大學助理教授梁一韜。所有作者均隸屬 CraftJarvis 研究團隊。
在游戲和機器人研究領域，讓智能體在開放世界環境中實現有效的交互，一直是令人興奮卻困難重重的挑戰。想象一下，智能體在《我的世界（Minecraft）》這樣的環境中，不僅要識別和理解復雜的視覺信息，還需要利用鼠標和鍵盤精細地控制游戲畫面，快速做出反應，完成像導航、采礦、建造、與生物互動等任務。面對如此龐大且復雜的交互空間，如何能讓智能體能理解并執行人類的意圖呢？針對這個問題，CraftJarvis 團隊提出利用 VLMs （視覺語言模型）強大

原文鏈接：導航、采礦、建造，北大這個新智能體把《我的世界》玩透了