首個精通3D任務(wù)的具身通才智能體:感知、推理、規(guī)劃、行動統(tǒng)統(tǒng)拿下
AIGC動態(tài)歡迎閱讀
原標(biāo)題:首個精通3D任務(wù)的具身通才智能體:感知、推理、規(guī)劃、行動統(tǒng)統(tǒng)拿下
關(guān)鍵字:數(shù)據(jù),任務(wù),模型,視覺,場景
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9434字
內(nèi)容摘要:機(jī)器之心專欄機(jī)器之心編輯部想要邁向通用人工智能,必須要構(gòu)建一個能夠理解人類生活的真實(shí)世界,并掌握豐富技能的具身通用智能體。今年以來,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態(tài)大語言模型(Multi-modal Large Language Model)在自然語言處理、視覺理解、機(jī)器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。為解決這一問題,北京通用人工智能研究院聯(lián)合北京大學(xué)、梅隆大學(xué)和清華大學(xué)的研究人員提出了首個三維世界中的具身多任務(wù)多模態(tài)的通才智能體 LEO。論文鏈接:https://arxiv.org/abs/2311.12871項(xiàng)目主頁:https://embodied-generalist.github.io/代碼鏈接:https://github.com/e…
原文鏈接:點(diǎn)此閱讀原文:首個精通3D任務(wù)的具身通才智能體:感知、推理、規(guī)劃、行動統(tǒng)統(tǒng)拿下
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺