為離線元強化學習提供統一理論基礎和算法設計準則。
原標題:NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架
文章來源:機器之心
內容字數:7426字
之江實驗室、香港中文大學等團隊提出離線元強化學習新算法UNICORN
本文總結了機器之心AIxiv專欄報道的關于離線元強化學習(Offline Meta-RL)新算法UNICORN的研究成果。該算法由之江實驗室、香港中文大學、同濟大學等單位的研究團隊共同提出,并被NeurIPS 2024接收為Spotlight文章。
1. 背景:離線元強化學習的挑戰
經典強化學習依賴于智能體與環境的在線交互,但在高風險場景(如自動駕駛、藥物發現)中不可行。離線強化學習(Offline RL)利用歷史數據進行學習,避免了在線交互的風險,但其泛化能力有限。元強化學習(Meta-RL)則注重多任務學習和遷移學習,具有強大的泛化能力。結合兩者優勢的“基于語境的離線元強化學習”(COMRL)應運而生,其核心在于學習魯棒有效的任務表征,以應對“語境偏移”問題——訓練數據與測試任務分布差異巨大。
2. UNICORN:基于信息論的統一框架
現有COMRL方法主要依靠經驗性改進損失函數,缺乏理論支撐。UNICORN算法的創新之處在于,它首次基于信息論,系統性地構建了COMRL中任務表示學習的理論框架。該框架從數學定義、因果關系分解、中心定理三個層面,對任務表示學習進行了嚴格的理論推導和分析。
具體而言:
- 數學定義:將任務表示學習定義為尋找數據相對于任務變量的充分統計量。
- 因果關系分解:將數據樣本的因果關系分解為主因果關系(與任務相關)和次因果關系(與行為策略相關),并對應到互信息的分解。
- 中心定理:證明了一個關于互信息的不等式,指出最優優化目標應該介于主因果關系和主次因果關系之和之間,并提出互信息 I(Z;M) 作為任務表示學習的金標準。
基于此理論框架,UNICORN提出了兩種算法實現:有監督UNICORN和自監督UNICORN,分別將I(Z;M)的求解近似為分類問題和數據重建+度量學習。
3. 實驗結果:UNICORN的優勢
實驗結果表明,UNICORN算法在多種機器人連續控制任務中表現出色:
- 在同分布和分布外測試集上均取得了優異的性能,尤其在分布外測試集上顯著優于現有方法。
- 在不同質量的數據集上表現穩定,達到了最先進水平。
- 具有良好的模型架構可遷移性,可作為即插即用模塊應用于其他RL算法。
- 在分布外任務上實現了正向小樣本遷移,展現了強大的泛化能力。
4. 未來展望
UNICORN為離線元強化學習提供了統一的理論基礎和算法設計準則,對決策大模型的離線多任務預訓練和微調具有重要指導意義,有望推動藥物設計、精準醫療等領域的AI發展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺