腦子會了,手也會了
原標題:化解機器人的「幻覺」:北大發布OmniManip,VLM結合雙閉環系統,3D理解能力大幅提升
文章來源:機器之心
內容字數:4833字
北京大學與智元機器人聯合實驗室:OmniManip架構——賦能機器人通用操作的視覺語言模型
本文介紹了北京大學與智元機器人聯合實驗室提出的OmniManip架構,該架構旨在解決將視覺語言模型(VLMs)應用于機器人通用操作的兩大關鍵挑戰:VLM缺乏精確的3D理解能力和無法輸出低層次動作。
1. OmniManip架構概述
OmniManip通過基于對象中心的3D交互基元,將VLM的高層次推理能力轉化為機器人的低層次高精度動作。為了克服大模型幻覺問題和真實環境操作的不確定性,它創新性地引入了VLM規劃和機器人執行的雙閉環系統設計,實現了操作性能的顯著突破。該架構無需訓練即可實現開放詞匯操作,在各種機器人操作任務中展現出強大的零樣本泛化能力。
2. 核心技術方案解析
- 基于VLM的任務解析:利用VLM強大的常識推理能力,將任務分解為多個結構化階段,每個階段明確指定了主動物體、被動物體和動作類型。
- 以物體為中心的交互基元作為空間約束:通過3D基座模型生成任務相關物體的3D模型和規范化空間,使VLM能夠直接在該空間中采樣3D交互基元,作為Action的空間約束,優化求解Active物體在Passive物體規范坐標系下的目標交互姿態。交互基元通過其在標準空間中的交互點和方向來表征,封裝了滿足任務約束所需的基本幾何和功能屬性。
- 閉環VLM規劃:將目標交互姿態下的Active/Passive物體渲染成圖像,由VLM評估與重采樣,實現VLM對自身規劃結果的閉環調整,有效減少大模型幻覺。
- 閉環機器人執行:通過物體6D姿態實時更新Active/Passive物體的位姿,轉換為機械臂末端執行器的操作軌跡,實現閉環執行。相比于關鍵點,基于物體的6D位姿跟蹤方式更穩定,對遮擋具有更強的魯棒性。
3. 實驗結果與優勢
實驗結果表明,OmniManip在12個真機短程任務上均展現出卓越的性能,雙閉環系統設計帶來了約17%的性能提升。其在交互基元提取方面,通過在物體的3D規范空間中進行采樣,克服了2D圖像的局限性,實現了可靠的3D交互基元提取。此外,OmniManip具有強大的拓展性和潛力,能夠與high-level任務規劃器結合,實現長程任務操作,并零成本遷移至不同形態的本體。
4. 未來展望
該團隊即將開源高質量的泛化操作大規模數據集和對應的仿真評測基準,并已將OmniManip應用于數字資產自動標注/合成管道,實現大規模的機器人軌跡自動采集。OmniManip的出現為機器人通用操作領域帶來了新的突破,具有廣闊的應用前景。
項目主頁:https://omnimanip.github.io
論文地址:https://arxiv.org/abs/2501.03841
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...