具身智能新高度!智元機器人推出全球首個4D世界模型EnerVerse
基于任意視角的未來空間生成引導(dǎo)機器人動作規(guī)劃

原標(biāo)題:具身智能新高度!智元機器人推出全球首個4D世界模型EnerVerse
文章來源:機器之心
內(nèi)容字數(shù):5074字
智元機器人EnerVerse架構(gòu):賦能機器人動作規(guī)劃的未來空間生成
本文介紹了智元機器人團隊提出的EnerVerse架構(gòu),該架構(gòu)利用自回歸擴散模型,在生成未來具身空間的同時引導(dǎo)機器人完成復(fù)雜任務(wù),從而解決了機器人動作規(guī)劃中模態(tài)對齊和數(shù)據(jù)稀缺的兩大難題,并在機器人動作規(guī)劃任務(wù)中實現(xiàn)了當(dāng)前最優(yōu)(SOTA)表現(xiàn)。
1. 挑戰(zhàn)與解決方案
機器人動作規(guī)劃的核心在于根據(jù)實時觀測和任務(wù)指令預(yù)測并完成未來操作。然而,現(xiàn)有方法面臨通用模型局限性和視覺記憶泛化能力不足等問題。EnerVerse通過逐塊生成的自回歸擴散框架,結(jié)合創(chuàng)新的稀疏記憶機制和錨定視角(FAV)方法,有效解決了這些挑戰(zhàn)。
2. EnerVerse架構(gòu)的技術(shù)方案
EnerVerse采用以下關(guān)鍵技術(shù):
- 逐塊擴散生成 (Next Chunk Diffusion):基于結(jié)合時空注意力的UNet結(jié)構(gòu),逐步生成未來具身空間,并通過單向因果邏輯確保生成序列的邏輯合理性。
- 稀疏記憶機制:借鑒LLM的上下文記憶,通過高比例隨機掩碼和較大時間間隔更新記憶隊列,降低計算開銷,提升長程任務(wù)生成能力。
- 錨定視角 (Free Anchor View,FAV):支持動態(tài)調(diào)整錨定視角,克服固定多視角在狹窄場景中的局限性,并通過光線投射原理和跨視角3D空間注意力確保生成視頻的幾何一致性。
- 高效動作規(guī)劃 (Diffusion Policy Head):在生成網(wǎng)絡(luò)下游集成Diffusion策略頭,實現(xiàn)未來空間生成與機器人動作規(guī)劃的全鏈條打通,并支持稀疏記憶,提升長程任務(wù)規(guī)劃能力。
3. 實驗結(jié)果與分析
實驗結(jié)果表明,EnerVerse在視頻生成和動作規(guī)劃方面均取得了顯著成果:
- 視頻生成性能:在短程和長程任務(wù)中均優(yōu)于現(xiàn)有模型,展現(xiàn)出更強的邏輯一致性和連續(xù)生成能力。
- 動作規(guī)劃能力:在LIBERO基準(zhǔn)測試中,EnerVerse在單視角和多視角設(shè)定下均超越了現(xiàn)有方法,尤其在長程任務(wù)中表現(xiàn)突出。
- 消融實驗:證明了稀疏記憶機制和二階段訓(xùn)練策略對性能提升的關(guān)鍵作用。
- 注意力可視化:直觀展現(xiàn)了EnerVerse生成的未來空間與預(yù)測的動作空間的強時序一致性。
4. 結(jié)論
智元機器人通過EnerVerse架構(gòu),開創(chuàng)了未來具身智能的新方向。該架構(gòu)突破了機器人任務(wù)規(guī)劃的技術(shù)瓶頸,為多模態(tài)、長程任務(wù)的研究提供了全新范式。項目主頁、論文和數(shù)據(jù)集即將開源。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號