首次提出空天具身智能概念!中科院公開無人機(jī)智能體基準(zhǔn)套件,加速空天具身世界模型構(gòu)建
空天具身世界模型是通往空天具身智能的必經(jīng)之路~

原標(biāo)題:首次提出空天具身智能概念!中科院公開無人機(jī)智能體基準(zhǔn)套件,加速空天具身世界模型構(gòu)建
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):10906字
空天具身智能研究:AeroVerse基準(zhǔn)套件的構(gòu)建與評(píng)估
本文介紹了中國科學(xué)院空天信息研究院和中國科學(xué)院大學(xué)的研究團(tuán)隊(duì)在空天具身智能領(lǐng)域的研究成果,重點(diǎn)在于構(gòu)建了一個(gè)名為AeroVerse的基準(zhǔn)套件,用于推動(dòng)該領(lǐng)域的發(fā)展。該套件包含了大規(guī)模的無人機(jī)第一視角圖文數(shù)據(jù)集、多種下游任務(wù)指令集以及自動(dòng)化評(píng)測方法。
研究背景與挑戰(zhàn)
研究目標(biāo)是賦能無人機(jī)等空天平臺(tái)實(shí)現(xiàn)自主感知、認(rèn)知和行動(dòng)的端到端閉環(huán),構(gòu)建空天具身世界模型是關(guān)鍵。然而,現(xiàn)有研究主要集中在地面智能體,空天智能體方面存在研究空白,主要挑戰(zhàn)包括:無人機(jī)具身任務(wù)缺乏統(tǒng)一定義;戶外3D數(shù)據(jù)采集難度高;無人機(jī)具身數(shù)據(jù)標(biāo)注成本高。
核心貢獻(xiàn)
研究團(tuán)隊(duì)的核心貢獻(xiàn)在于:1. 構(gòu)建了兩個(gè)大規(guī)模數(shù)據(jù)集:AerialAgent-Ego10k(真實(shí)城市無人機(jī)第一視角圖文數(shù)據(jù)集)和CyberAgent-Ego500k(虛擬圖文姿態(tài)對(duì)齊數(shù)據(jù)集);2. 首次明確定義了五個(gè)無人機(jī)具身下游任務(wù)(環(huán)境感知、空間推理、導(dǎo)航探索、路徑規(guī)劃和控制),并構(gòu)建了對(duì)應(yīng)的指令集;3. 開發(fā)了一套基于GPT-4的自動(dòng)化評(píng)測方法;4. 使用十多種多模態(tài)大模型進(jìn)行了廣泛實(shí)驗(yàn),分析了其在無人機(jī)智能體數(shù)據(jù)集上的表現(xiàn);5. 發(fā)布了AeroVerse基準(zhǔn)套件,推動(dòng)空天具身智能領(lǐng)域發(fā)展。
AeroSimulator:空天世界模擬器
為了模擬無人機(jī)飛行真實(shí)場景,研究團(tuán)隊(duì)利用Unreal Engine 4和AirSim搭建了一個(gè)模擬器,能夠模擬不同的光照條件、季節(jié)和氣候模式,方便模型訓(xùn)練和真實(shí)世界遷移。
數(shù)據(jù)集構(gòu)建
AerialAgent-Ego10k數(shù)據(jù)集包含10,000張高分辨率城市無人機(jī)第一視角圖像及其詳細(xì)文本描述。CyberAgent-Ego500k數(shù)據(jù)集則包含了虛擬環(huán)境中的圖文姿態(tài)對(duì)齊數(shù)據(jù),用于彌補(bǔ)真實(shí)數(shù)據(jù)不足。
指令集設(shè)計(jì)
研究團(tuán)隊(duì)設(shè)計(jì)了五個(gè)下游任務(wù)指令集:SkyAgent-Scene3k(場景感知)、SkyAgent-Reason3k(空間推理)、SkyAgent-Nav3k(導(dǎo)航探索)、SkyAgent-Plan3k(任務(wù)規(guī)劃)和SkyAgent-Act3k(行動(dòng)決策),這些指令集涵蓋了無人機(jī)具身任務(wù)的各個(gè)方面。
模型適配與評(píng)估
研究團(tuán)隊(duì)選擇了十多種2D/3D視覺語言模型進(jìn)行實(shí)驗(yàn),并使用BLEU、CIDEr、SPICE等傳統(tǒng)評(píng)測方法以及基于GPT-4的自動(dòng)化評(píng)測方法對(duì)模型性能進(jìn)行了評(píng)估。結(jié)果顯示,GPT-4o模型在大多數(shù)任務(wù)和場景中表現(xiàn)最佳,但模型在復(fù)雜場景(如校園場景)下的泛化能力仍有待提高。
實(shí)驗(yàn)分析與討論
實(shí)驗(yàn)結(jié)果表明,2D/3D視覺語言模型在無人機(jī)智能體任務(wù)中具有潛力,但也存在局限性。模型的場景泛化能力和任務(wù)泛化能力有待進(jìn)一步提升。參數(shù)數(shù)量的增加并不一定與性能的提升成正比。
總而言之,這項(xiàng)研究為空天具身智能領(lǐng)域提供了寶貴的資源和基準(zhǔn),為未來研究提供了方向,也促進(jìn)了該領(lǐng)域的發(fā)展。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

粵公網(wǎng)安備 44011502001135號(hào)