首次提出空天具身智能概念！中科院公開無人機(jī)智能體基準(zhǔn)套件，加速空天具身世界模型構(gòu)建

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布智猩猩GenAI

空天具身世界模型是通往空天具身智能的必經(jīng)之路~

原標(biāo)題：首次提出空天具身智能概念！中科院公開無人機(jī)智能體基準(zhǔn)套件，加速空天具身世界模型構(gòu)建
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：10906字

空天具身智能研究：AeroVerse基準(zhǔn)套件的構(gòu)建與評(píng)估

本文介紹了中國科學(xué)院空天信息研究院和中國科學(xué)院大學(xué)的研究團(tuán)隊(duì)在空天具身智能領(lǐng)域的研究成果，重點(diǎn)在于構(gòu)建了一個(gè)名為AeroVerse的基準(zhǔn)套件，用于推動(dòng)該領(lǐng)域的發(fā)展。該套件包含了大規(guī)模的無人機(jī)第一視角圖文數(shù)據(jù)集、多種下游任務(wù)指令集以及自動(dòng)化評(píng)測方法。

研究背景與挑戰(zhàn)
研究目標(biāo)是賦能無人機(jī)等空天平臺(tái)實(shí)現(xiàn)自主感知、認(rèn)知和行動(dòng)的端到端閉環(huán)，構(gòu)建空天具身世界模型是關(guān)鍵。然而，現(xiàn)有研究主要集中在地面智能體，空天智能體方面存在研究空白，主要挑戰(zhàn)包括：無人機(jī)具身任務(wù)缺乏統(tǒng)一定義；戶外3D數(shù)據(jù)采集難度高；無人機(jī)具身數(shù)據(jù)標(biāo)注成本高。
核心貢獻(xiàn)
研究團(tuán)隊(duì)的核心貢獻(xiàn)在于：1. 構(gòu)建了兩個(gè)大規(guī)模數(shù)據(jù)集：AerialAgent-Ego10k（真實(shí)城市無人機(jī)第一視角圖文數(shù)據(jù)集）和CyberAgent-Ego500k（虛擬圖文姿態(tài)對(duì)齊數(shù)據(jù)集）；2. 首次明確定義了五個(gè)無人機(jī)具身下游任務(wù)（環(huán)境感知、空間推理、導(dǎo)航探索、路徑規(guī)劃和控制），并構(gòu)建了對(duì)應(yīng)的指令集；3. 開發(fā)了一套基于GPT-4的自動(dòng)化評(píng)測方法；4. 使用十多種多模態(tài)大模型進(jìn)行了廣泛實(shí)驗(yàn)，分析了其在無人機(jī)智能體數(shù)據(jù)集上的表現(xiàn)；5. 發(fā)布了AeroVerse基準(zhǔn)套件，推動(dòng)空天具身智能領(lǐng)域發(fā)展。
AeroSimulator：空天世界模擬器
為了模擬無人機(jī)飛行真實(shí)場景，研究團(tuán)隊(duì)利用Unreal Engine 4和AirSim搭建了一個(gè)模擬器，能夠模擬不同的光照條件、季節(jié)和氣候模式，方便模型訓(xùn)練和真實(shí)世界遷移。
數(shù)據(jù)集構(gòu)建
AerialAgent-Ego10k數(shù)據(jù)集包含10,000張高分辨率城市無人機(jī)第一視角圖像及其詳細(xì)文本描述。CyberAgent-Ego500k數(shù)據(jù)集則包含了虛擬環(huán)境中的圖文姿態(tài)對(duì)齊數(shù)據(jù)，用于彌補(bǔ)真實(shí)數(shù)據(jù)不足。
指令集設(shè)計(jì)
研究團(tuán)隊(duì)設(shè)計(jì)了五個(gè)下游任務(wù)指令集：SkyAgent-Scene3k（場景感知）、SkyAgent-Reason3k（空間推理）、SkyAgent-Nav3k（導(dǎo)航探索）、SkyAgent-Plan3k（任務(wù)規(guī)劃）和SkyAgent-Act3k（行動(dòng)決策），這些指令集涵蓋了無人機(jī)具身任務(wù)的各個(gè)方面。
模型適配與評(píng)估
研究團(tuán)隊(duì)選擇了十多種2D/3D視覺語言模型進(jìn)行實(shí)驗(yàn)，并使用BLEU、CIDEr、SPICE等傳統(tǒng)評(píng)測方法以及基于GPT-4的自動(dòng)化評(píng)測方法對(duì)模型性能進(jìn)行了評(píng)估。結(jié)果顯示，GPT-4o模型在大多數(shù)任務(wù)和場景中表現(xiàn)最佳，但模型在復(fù)雜場景（如校園場景）下的泛化能力仍有待提高。
實(shí)驗(yàn)分析與討論
實(shí)驗(yàn)結(jié)果表明，2D/3D視覺語言模型在無人機(jī)智能體任務(wù)中具有潛力，但也存在局限性。模型的場景泛化能力和任務(wù)泛化能力有待進(jìn)一步提升。參數(shù)數(shù)量的增加并不一定與性能的提升成正比。

總而言之，這項(xiàng)研究為空天具身智能領(lǐng)域提供了寶貴的資源和基準(zhǔn)，為未來研究提供了方向，也促進(jìn)了該領(lǐng)域的發(fā)展。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號(hào)之一，深入關(guān)注大模型與AI智能體，及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

閱讀原文

# AIGC動(dòng)態(tài)# 人工智能基準(zhǔn)測試 # 具身世界模型 # 無人機(jī)智能體基準(zhǔn)套件 # 空天具身智能 # 空天智能

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

首次提出空天具身智能概念！中科院公開無人機(jī)智能體基準(zhǔn)套件，加速空天具身世界模型構(gòu)建

空天具身世界模型是通往空天具身智能的必經(jīng)之路~

空天具身智能研究：AeroVerse基準(zhǔn)套件的構(gòu)建與評(píng)估

研究背景與挑戰(zhàn)

核心貢獻(xiàn)

AeroSimulator：空天世界模擬器

數(shù)據(jù)集構(gòu)建

指令集設(shè)計(jì)

模型適配與評(píng)估

實(shí)驗(yàn)分析與討論

聯(lián)系作者

追覓發(fā)布 X50 Ultra，這是一臺(tái)長「腿」的掃地機(jī)｜CES 2025

現(xiàn)場直擊黃仁勛CES 2025演講：瘋狂的觀眾與超級(jí)芯片隊(duì)長｜甲子光年

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？