原標題:50%優勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析
文章來源:新智元
內容字數:8448字
清華大學強化學習重大突破:DSAC、DACER及RAD算法詳解
清華大學深度強化學習實驗室近期在強化學習領域取得一系列突破性進展,開發出DSAC、DSAC-T、DACER和RAD等算法,并將其集成到開源軟件GOPS中,為具身智能發展注入強勁動力。
1. 解決強化學習過估計問題:DSAC和DSAC-T算法
強化學習中,過估計問題一直是制約其性能提升的瓶頸。清華團隊提出的DSAC (Distributional Soft Actor-Critic) 算法,通過學習連續型分布式值函數,而非單一Q值,有效降低了過估計偏差。 DSAC算法首次從理論層面論證了分布式回報函數學習降低過估計的原理,并將其融入最大熵架構中。然而,DSAC也存在學習不穩定、參數敏感等問題。 因此,團隊進一步改進,提出了DSAC-T算法,通過期望值替換、雙值分布學習和基于方差的critic梯度調整三個方面,提升了算法的穩定性和魯棒性。
2. 融合擴散模型提升性能:DACER算法
DACER (Diffusion Actor-Critic with Entropy Regulator) 算法將擴散模型與在線強化學習相結合,突破了傳統在線強化學習的局限。它巧妙地將擴散模型的反向過程定義為新的策略近似函數,利用擴散模型強大的表示能力提升性能,并通過高斯混合模型估計策略熵,實現探索與利用的平衡,刷新了強化學習性能的世界紀錄。
3. 提升訓練穩定性:RAD優化器
為了保證強化學習訓練的穩定性,清華團隊提出了RAD (Relativistic Adaptive Dynamics) 優化器。該優化器從動力學視角出發,將神經網絡參數優化建模為多粒子相對論系統演化,賦予參數自適應能力,確保訓練長時域穩定與快速收斂。在多個測試環境和主流強化學習算法中,RAD優化器的綜合性能均排名第一。
4. 開源軟件GOPS:推動具身智能發展
上述算法將逐步集成到團隊自主研發的開源軟件GOPS (General Optimal control Problem Solver) 中。GOPS以強化學習為核心,兼容多種機器人和工業仿真環境,能夠有效處理復雜場景的具身智能控制問題,已應用于自動駕駛、物流機器人等領域。GOPS的進一步升級將推動更多現實世界中的機器擁有類人的智能,加速具身智能時代的到來。
總而言之,清華大學團隊的這些成果,不僅在算法層面取得了顯著突破,也為強化學習的應用和具身智能的發展提供了重要的技術支撐。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。