Aether – 上海 AI Lab 開源的生成式世界模型
Aether:智能空間推理與決策的前沿模型
Aether 是由上海AI Lab開源的性生成式世界模型,完全依賴合成數據進行訓練。其創新之處在于將三維時空建模與生成式建模深度融合,展現出強大的4D動態重建、動作條件視頻預測和目標導向視覺規劃三大核心功能。Aether能夠感知周圍環境,理解物體的位置與關系,從而進行智能決策。在真實世界中,Aether以其卓越的零樣本泛化能力,憑借虛擬數據訓練高效完成復雜任務,為具身智能系統提供強大的空間推理和決策支持。
Aether是什么
Aether 是一個先進的生成式世界模型,致力于將三維時空建模與生成式建模實現深度整合。通過合成數據的訓練,Aether不僅能夠感知環境,還能對物體的位置和關系進行深入理解,從而做出智能決策。這一模型在真實環境中展現出強大的零樣本泛化能力,使其能夠在沒有真實數據的情況下,憑借虛擬數據高效解決復雜任務,為具身智能系統提供了強有力的空間推理和決策支持。
Aether的主要功能
- 4D動態重建:能夠從視頻中重建包含時間和空間信息的三維場景模型,捕捉動態變化。
- 動作條件視頻預測:依據初始觀察和動作軌跡,預測未來場景的變化。
- 目標導向視覺規劃:根據起始和目標場景生成合理路徑,輔助智能系統規劃行動路線。
Aether的技術原理
- 統一多任務框架:將動態重建、視頻預測和動作規劃三項任務聯合在一個框架中進行優化,借助任務間的特征學習,實現不同任務之間的協同優化,增強模型的穩定性和魯棒性。
- 幾何感知建模:通過引入三維時空建模,構建幾何空間,提升模型的空間推理能力。利用大量仿真RGBD數據(彩像和深度圖),開發出完整的數據清洗與動態重建流程,并標注豐富的動作序列。
- 相機軌跡作為動作表征:選擇相機軌跡作為全局動作的表示。在導航任務中,相機軌跡直接對應導航路徑;在機器人操作中,手柄相機的則能捕捉末端執行器的6D。
- 擴散模型與多模態融合:基于預訓練的視頻擴散模型,利用合成4D數據進行后訓練。將深度視頻轉換為尺度不變的歸一化視差表示,將相機軌跡編碼為與擴散變換器(DiTs)時空框架對齊的尺度不變射線圖序列。通過動態整合跨任務和跨模態的條件信號,Aether實現多模態信息的融合與協同優化。
- 零樣本泛化能力:完全依賴虛擬數據進行訓練,成功實現對真實世界的零樣本泛化。通過組合不同的條件輸入(如觀察幀、目標幀和動作軌跡),結合擴散過程,Aether能夠實現對多種任務的統一建模與生成,展現出在沒有真實世界數據的情況下,遷移到真實場景中的卓越表現。
Aether的項目地址
- 項目官網:https://aether-world.github.io/
- GitHub倉庫:https://github.com/OpenRobotLab/Aether
- HuggingFace模型庫:https://huggingface.co/AetherWorldModel/AetherV1
- arXiv技術論文:https://arxiv.org/pdf/2503.18945
- 在線體驗Demo:https://huggingface.co/spaces/AmberHeart/AetherV1
Aether的應用場景
- 機器人導航:協助機器人規劃路徑,避開動態障礙物。
- 自動駕駛:實時重建道路場景,預測交通動態。
- 虛擬現實:生成沉浸式虛擬場景,提升用戶體驗。
- 工業機器人:優化機器人操作路徑,提高生產效率。
- 智能監控:分析監控視頻,預測異常行為。
常見問題
- Aether的訓練數據來源是什么? Aether完全基于合成數據進行訓練,這使得它具備強大的零樣本泛化能力。
- Aether能在哪些領域應用? Aether適用于機器人導航、自動駕駛、虛擬現實、工業機器人和智能監控等多個領域。
- 如何訪問Aether的項目? 用戶可以通過其官網和GitHub倉庫訪問Aether的詳細信息及資源。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...