<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

        AIGC動態9個月前發布 機器之心
        534 0 0

        為離線元強化學習提供統一理論基礎和算法設計準則。

        NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

        原標題:NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架
        文章來源:機器之心
        內容字數:7426字

        之江實驗室、香港中文大學等團隊提出離線元強化學習新算法UNICORN

        本文總結了機器之心AIxiv專欄報道的關于離線元強化學習(Offline Meta-RL)新算法UNICORN的研究成果。該算法由之江實驗室、香港中文大學、同濟大學等單位的研究團隊共同提出,并被NeurIPS 2024接收為Spotlight文章。

        1. 背景:離線元強化學習的挑戰

        經典強化學習依賴于智能體與環境的在線交互,但在高風險場景(如自動駕駛、藥物發現)中不可行。離線強化學習(Offline RL)利用歷史數據進行學習,避免了在線交互的風險,但其泛化能力有限。元強化學習(Meta-RL)則注重多任務學習和遷移學習,具有強大的泛化能力。結合兩者優勢的“基于語境的離線元強化學習”(COMRL)應運而生,其核心在于學習魯棒有效的任務表征,以應對“語境偏移”問題——訓練數據與測試任務分布差異巨大。

        2. UNICORN:基于信息論的統一框架

        現有COMRL方法主要依靠經驗性改進損失函數,缺乏理論支撐。UNICORN算法的創新之處在于,它首次基于信息論,系統性地構建了COMRL中任務表示學習的理論框架。該框架從數學定義、因果關系分解、中心定理三個層面,對任務表示學習進行了嚴格的理論推導和分析。

        具體而言:

        1. 數學定義:將任務表示學習定義為尋找數據相對于任務變量的充分統計量。
        2. 因果關系分解:將數據樣本的因果關系分解為主因果關系(與任務相關)和次因果關系(與行為策略相關),并對應到互信息的分解。
        3. 中心定理:證明了一個關于互信息的不等式,指出最優優化目標應該介于主因果關系和主次因果關系之和之間,并提出互信息 I(Z;M) 作為任務表示學習的金標準。

        基于此理論框架,UNICORN提出了兩種算法實現:有監督UNICORN和自監督UNICORN,分別將I(Z;M)的求解近似為分類問題和數據重建+度量學習。

        3. 實驗結果:UNICORN的優勢

        實驗結果表明,UNICORN算法在多種機器人連續控制任務中表現出色:

        • 在同分布和分布外測試集上均取得了優異的性能,尤其在分布外測試集上顯著優于現有方法。
        • 在不同質量的數據集上表現穩定,達到了最先進水平。
        • 具有良好的模型架構可遷移性,可作為即插即用模塊應用于其他RL算法。
        • 在分布外任務上實現了正向小樣本遷移,展現了強大的泛化能力。

        4. 未來展望

        UNICORN為離線元強化學習提供了統一的理論基礎和算法設計準則,對決策大模型的離線多任務預訓練和微調具有重要指導意義,有望推動藥物設計、精準醫療等領域的AI發展。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产成人久久| 亚洲五月六月丁香激情| 亚洲人成网站在线在线观看| 精品免费久久久久久久| 亚洲白色白色永久观看| 足恋玩丝袜脚视频免费网站| 亚洲激情中文字幕| 57pao国产成永久免费视频| 亚洲欧洲国产精品久久| 114一级毛片免费| 亚洲中文字幕乱码AV波多JI| 天天看免费高清影视| 亚洲欧美日韩中文高清www777| 免费视频中文字幕| 国产亚洲综合精品一区二区三区| 免费久久精品国产片香蕉| 人妻仑乱A级毛片免费看| 亚洲一区精品无码| 99精品视频在线观看免费专区| 18亚洲男同志videos网站| 国产免费AV片在线播放唯爱网| 亚洲精品成a人在线观看夫| 四虎影视永久免费观看地址| 久久国产精品免费一区二区三区| 亚洲乱码精品久久久久..| 亚洲精品成人片在线播放| 无码少妇精品一区二区免费动态 | 青青视频免费在线| 亚洲日本va在线视频观看| 四虎最新永久免费视频| 国产精品亚洲综合一区在线观看| 国产成人精品久久亚洲| 中文字幕免费视频一| 亚洲乱亚洲乱妇24p| 老司机亚洲精品影视www| jjizz全部免费看片| 美女被爆羞羞网站免费| 亚洲AV成人精品网站在线播放 | 国产精品冒白浆免费视频| 羞羞视频免费网站在线看| 亚洲一卡2卡4卡5卡6卡在线99|