導(dǎo)航、采礦、建造,北大這個新智能體把《我的世界》玩透了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:導(dǎo)航、采礦、建造,北大這個新智能體把《我的世界》玩透了
關(guān)鍵字:物體,任務(wù),視覺,上下文,團隊
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com該研究成果由來自北京大學(xué)的蔡少斐、王子豪、連可為、牟湛存、來自北京通用人工智能研究院的馬曉健研究員、來自加州大學(xué)洛杉磯分校的劉安吉共同完成。通訊作者為北京大學(xué)助理教授梁一韜。所有作者均隸屬 CraftJarvis 研究團隊。
在游戲和機器人研究領(lǐng)域,讓智能體在開放世界環(huán)境中實現(xiàn)有效的交互,一直是令人興奮卻困難重重的挑戰(zhàn)。想象一下,智能體在《我的世界(Minecraft)》這樣的環(huán)境中,不僅要識別和理解復(fù)雜的視覺信息,還需要利用鼠標(biāo)和鍵盤精細(xì)地控制游戲畫面,快速做出反應(yīng),完成像導(dǎo)航、采礦、建造、與生物互動等任務(wù)。面對如此龐大且復(fù)雜的交互空間,如何能讓智能體能理解并執(zhí)行人類的意圖呢?針對這個問題,CraftJarvis 團隊提出利用 VLMs (視覺語言模型)強大
原文鏈接:導(dǎo)航、采礦、建造,北大這個新智能體把《我的世界》玩透了
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: