從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界
關(guān)鍵字：問(wèn)題,模型,世界,基準(zhǔn),詞匯
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：4096字

內(nèi)容摘要：

新智元報(bào)道編輯：Mindy
【新智元導(dǎo)讀】Meta新發(fā)布的開(kāi)放詞匯體驗(yàn)問(wèn)答（OpenEQA）基準(zhǔn)，旨在衡量AI Agent對(duì)物理空間的理解能力，但目前AI Agent的水平還是無(wú)法與人類(lèi)媲美。LLM已經(jīng)可以理解文本和圖片了，也能夠根據(jù)它們的歷史知識(shí)回答各種問(wèn)題，但它們或許對(duì)周?chē)澜绠?dāng)前發(fā)生的事情一無(wú)所知。
現(xiàn)在LLMs也開(kāi)始逐步學(xué)習(xí)理解3D物理空間，通過(guò)增強(qiáng)LLMs的「看到」世界的能力，人們可以開(kāi)發(fā)新的應(yīng)用，在更多場(chǎng)景去獲取LLMs的幫助。
AI Agent，比如機(jī)器人或是智能眼鏡，它們可以通過(guò)感知和理解環(huán)境來(lái)回答一些開(kāi)放性問(wèn)題，比如「我把鑰匙放哪里了？」
這樣的AI Agent需要利用視覺(jué)等感知模式來(lái)理解其周?chē)h(huán)境，并能夠用清晰的日常語(yǔ)言有效地與人交流。
這類(lèi)似于構(gòu)建一個(gè)「世界模型」，即AI Agent可以對(duì)外部世界產(chǎn)生它自己的內(nèi)部理解方法，并能夠讓人類(lèi)通過(guò)語(yǔ)言查詢(xún)。
這是一個(gè)長(zhǎng)期的愿景和一個(gè)有挑戰(zhàn)的領(lǐng)域，也是實(shí)現(xiàn)人工通用智能的重要一步。
Meta的新研究OpenEQA（Embodied Question Answering）框架，即開(kāi)放詞匯體驗(yàn)問(wèn)答框架，為我們探索這個(gè)領(lǐng)域提供了新

原文鏈接：從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文