国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

AIGC動態11個月前發布 機器之心
538 0 0

為離線元強化學習提供統一理論基礎和算法設計準則。

NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

原標題:NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架
文章來源:機器之心
內容字數:7426字

之江實驗室、香港中文大學等團隊提出離線元強化學習新算法UNICORN

本文總結了機器之心AIxiv專欄報道的關于離線元強化學習(Offline Meta-RL)新算法UNICORN的研究成果。該算法由之江實驗室、香港中文大學、同濟大學等單位的研究團隊共同提出,并被NeurIPS 2024接收為Spotlight文章。

1. 背景:離線元強化學習的挑戰

經典強化學習依賴于智能體與環境的在線交互,但在高風險場景(如自動駕駛、藥物發現)中不可行。離線強化學習(Offline RL)利用歷史數據進行學習,避免了在線交互的風險,但其泛化能力有限。元強化學習(Meta-RL)則注重多任務學習和遷移學習,具有強大的泛化能力。結合兩者優勢的“基于語境的離線元強化學習”(COMRL)應運而生,其核心在于學習魯棒有效的任務表征,以應對“語境偏移”問題——訓練數據與測試任務分布差異巨大。

2. UNICORN:基于信息論的統一框架

現有COMRL方法主要依靠經驗性改進損失函數,缺乏理論支撐。UNICORN算法的創新之處在于,它首次基于信息論,系統性地構建了COMRL中任務表示學習的理論框架。該框架從數學定義、因果關系分解、中心定理三個層面,對任務表示學習進行了嚴格的理論推導和分析。

具體而言:

  1. 數學定義:將任務表示學習定義為尋找數據相對于任務變量的充分統計量。
  2. 因果關系分解:將數據樣本的因果關系分解為主因果關系(與任務相關)和次因果關系(與行為策略相關),并對應到互信息的分解。
  3. 中心定理:證明了一個關于互信息的不等式,指出最優優化目標應該介于主因果關系和主次因果關系之和之間,并提出互信息 I(Z;M) 作為任務表示學習的金標準。

基于此理論框架,UNICORN提出了兩種算法實現:有監督UNICORN和自監督UNICORN,分別將I(Z;M)的求解近似為分類問題和數據重建+度量學習。

3. 實驗結果:UNICORN的優勢

實驗結果表明,UNICORN算法在多種機器人連續控制任務中表現出色:

  • 在同分布和分布外測試集上均取得了優異的性能,尤其在分布外測試集上顯著優于現有方法。
  • 在不同質量的數據集上表現穩定,達到了最先進水平。
  • 具有良好的模型架構可遷移性,可作為即插即用模塊應用于其他RL算法。
  • 在分布外任務上實現了正向小樣本遷移,展現了強大的泛化能力。

4. 未來展望

UNICORN為離線元強化學習提供了統一的理論基礎和算法設計準則,對決策大模型的離線多任務預訓練和微調具有重要指導意義,有望推動藥物設計、精準醫療等領域的AI發展。


聯系作者

文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        奇米精品一区二区三区在线观看| 久久综合色天天久久综合图片| 欧美一区二区久久| 色婷婷综合五月| av一区二区三区四区| 成人午夜免费av| 91蜜桃网址入口| 91精品国产一区二区三区蜜臀| 亚洲成人精品一区二区| 性做久久久久久免费观看| 欧美艳星brazzers| 欧美一区二区三区四区在线观看| 日韩在线观看一区二区| 成人开心网精品视频| 日韩伦理免费电影| 日韩不卡一区二区三区 | 欧美一区二区日韩一区二区| 精品影视av免费| 成人18视频日本| 欧美一区二区三区播放老司机| 九九久久精品视频| 中文字幕一区二区三区色视频| 日产精品久久久久久久性色| 日韩精品专区在线| 亚洲大片一区二区三区| 日韩欧美亚洲一区二区| www.欧美日韩国产在线| 日韩黄色一级片| 亚洲久本草在线中文字幕| 国产曰批免费观看久久久| 欧美影院午夜播放| 国产在线视频不卡二| 日韩一区二区三| 久久精品国产色蜜蜜麻豆| 在线成人免费观看| 亚洲一区二区视频在线观看| jlzzjlzz亚洲日本少妇| 日韩激情一二三区| 樱花影视一区二区| 国产精品护士白丝一区av| 国产精品66部| 久久亚洲一级片| 欧美精品久久99| 色综合一个色综合亚洲| 自拍偷拍亚洲激情| 久久视频一区二区| 欧美一区二区精品久久911| 欧美色网站导航| 色婷婷激情久久| av男人天堂一区| 丁香六月综合激情| 日本中文一区二区三区| 亚洲一区二区在线视频| 国产精品不卡视频| 国产精品国产三级国产三级人妇| 久久久久久久久97黄色工厂| 九色|91porny| 激情av综合网| 国产成人无遮挡在线视频| 中文字幕中文字幕一区| 日本一区二区三区dvd视频在线| 国产一区二区三区最好精华液| 午夜影视日本亚洲欧洲精品| 亚洲美女精品一区| 欧美高清你懂得| 欧美电影在线免费观看| 在线精品视频小说1| 另类小说一区二区三区| 麻豆一区二区三区| 国产精品你懂的在线欣赏| 色系网站成人免费| 色视频一区二区| 欧美日韩免费一区二区三区视频| 久久99精品国产.久久久久久| 亚洲成人一区在线| 日产欧产美韩系列久久99| 精品在线亚洲视频| 成人免费视频网站在线观看| 日本高清不卡一区| 国产乱码一区二区三区| 国产成人精品免费看| 成人av一区二区三区| 欧美亚洲高清一区| 欧美电影免费观看高清完整版| 久久精品夜色噜噜亚洲a∨| 欧美在线看片a免费观看| 欧美日韩精品一区二区三区 | 国产在线一区二区| 欧美一级日韩免费不卡| 欧美日韩你懂得| 94-欧美-setu| 99久精品国产| 91影院在线免费观看| 成人久久视频在线观看| 欧洲av在线精品| 欧美色图12p| 欧美va亚洲va香蕉在线| 成人性生交大片免费看视频在线 | 久久99久久精品欧美| 国产成人啪免费观看软件| 一本大道av一区二区在线播放| 欧美一级片免费看| 中文字幕欧美国产| 91福利资源站| 精品国产青草久久久久福利| 在线成人免费观看| 国产欧美一区二区三区鸳鸯浴| 亚洲一区二区视频在线| 国产精品一区二区果冻传媒| 91影院在线免费观看| 精品免费国产二区三区| 亚洲精品伦理在线| 成人三级伦理片| 精品国产欧美一区二区| 丝袜a∨在线一区二区三区不卡| 成人app网站| 久久综合一区二区| 蜜桃91丨九色丨蝌蚪91桃色| 欧美日韩国产123区| 亚洲天堂av老司机| 成人免费福利片| 久久精品夜色噜噜亚洲a∨| 免费成人在线播放| 欧美在线看片a免费观看| 成人免费在线播放视频| 成人午夜精品一区二区三区| 337p粉嫩大胆色噜噜噜噜亚洲| 日韩精品亚洲一区二区三区免费| 在线观看亚洲a| 夜夜精品视频一区二区| 一区二区三区四区不卡在线| 99久久婷婷国产精品综合| 国产精品久99| 91丨九色丨尤物| 亚洲精品少妇30p| 欧美色涩在线第一页| 亚洲一区二区四区蜜桃| 欧美色网站导航| 日av在线不卡| 亚洲精品一区二区三区四区高清| 国产在线一区观看| 中文字幕av不卡| 在线亚洲高清视频| 性久久久久久久| 亚洲精品一区二区三区99| 国产伦精品一区二区三区在线观看| 久久久国产一区二区三区四区小说 | 3atv一区二区三区| 久久视频一区二区| 国产盗摄精品一区二区三区在线| 国产视频在线观看一区二区三区| 成人激情校园春色| 一区二区激情小说| 日韩一区二区免费高清| 国产精品系列在线观看| 久久久不卡网国产精品二区| 99这里都是精品| 亚洲国产一区二区三区| 国产精品白丝av| 国产精品色噜噜| 在线免费精品视频| 蜜臀av性久久久久蜜臀aⅴ四虎 | 欧美性生活大片视频| 日韩国产精品91| 久久久高清一区二区三区| 不卡视频免费播放| 香蕉影视欧美成人| 国产精品久久久久永久免费观看| 欧美日韩高清一区二区三区| 国产精品影视天天线| 亚洲国产另类av| 国产日韩精品一区二区三区在线| 99国内精品久久| 热久久一区二区| 亚洲日本一区二区| www成人在线观看| 91精品1区2区| 国产成人在线电影| 日本欧美一区二区三区| 国产精品麻豆视频| 日韩欧美你懂的| 8v天堂国产在线一区二区| 丁香天五香天堂综合| 91.xcao| 成人午夜看片网址| 玖玖九九国产精品| 一区二区三区波多野结衣在线观看 | 久久精品免费观看| 亚洲精品国产无天堂网2021| 欧美精品一区二区不卡| 欧美视频一区二区三区四区| av在线综合网| 精品一区二区三区视频在线观看 | 亚洲自拍偷拍图区| 亚洲国产精品v| 国产偷国产偷精品高清尤物| 精品精品欲导航| 在线播放国产精品二区一二区四区 | 一区二区三区日韩欧美| 亚洲国产精品成人综合|