本文將介紹如何通過偏好對齊來泛化機器人策略。
原標題:把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源
文章來源:機器之心
內容字數:4186字
GRAPE: 提升機器人策略泛化能力的偏好對齊框架
本文介紹了機器之心AIxiv專欄報道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。該研究由北卡羅來納大學教堂山分校張子健等學者完成,旨在解決視覺-語言-動作(VLA)模型在機器人任務中泛化能力不足的問題。
1. 研究背景與問題
現有的VLA模型通常依賴于對成功執行軌跡的行為克隆,導致其在面對新任務時泛化能力較差。此外,微調方法帶來的分布偏差也限制了模型對多樣化操作目標(例如效率、安全性)的適應能力。
2. GRAPE框架及其優勢
GRAPE是一個即插即用的算法,通過偏好對齊來提升VLA模型的泛化能力,并支持將模型對齊到任意設定的目標。它具有以下三大優勢:
- 軌跡級強化學習對齊:GRAPE在軌跡層面利用強化學習目標對VLA模型進行對齊,賦予模型全局決策能力,而非簡單的行為克隆。
- 隱式獎勵建模:GRAPE隱式建模了成功和失敗嘗試中的獎勵,提升了對多樣化任務的泛化能力。
- 可擴展的偏好合成算法:GRAPE采用可擴展的偏好合成算法,通過對軌跡進行排序,將VLA模型對齊到指定目標。
GRAPE框架包含三個主要部分:軌跡級偏好優化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在線對齊(Iterative Online Alignment)。TPO通過改進的DPO損失函數(TPO_Loss)進行軌跡級別偏好學習;定制化偏好合成則利用大型視覺-語言模型分解復雜任務,自動引導偏好建模過程;迭代式在線對齊則通過循環迭代不斷優化對齊過程。
3. 實驗結果與分析
研究人員在真機和仿真環境下對GRAPE進行了評估。真機實驗涵蓋了五種分布外泛化(OOD)任務,結果顯示GRAPE相較于OpenVLA-SFT模型取得了顯著提升(20.7%~26.7%)。仿真實驗也驗證了GRAPE在面對不同OOD任務時的優越性能(8.0%~19.0%)。
此外,實驗還表明GRAPE能夠有效地將機器人策略與多種目標(如安全性、效率)對齊,例如,在追求安全性的目標下,碰撞率降低了44.31%;在追求效率的目標下,執行軌跡長度縮短了11.15%。
4. 結論
GRAPE框架是一種即插即用的VLA模型對齊方法,能夠顯著提升機器人策略的泛化能力,并支持對齊到任意指定目標,在多種機器人任務場景下均有應用潛力。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺