RAGEN

AI工具2周前更新 AI工具集

16 0 0

RAGEN – 訓練大模型推理 Agent 的開源強化學習框架

RAGEN

RAGEN是一個開源的強化學習框架，專門用于在交互式和隨機環境中訓練大型語言模型（LLM）的推理代理。該框架基于StarPO（狀態-思考-行動-獎勵策略優化）模型，通過多輪交互優化整個軌跡，并支持PPO、GRPO等多種優化策略。

RAGEN是什么

RAGEN是一個開源的強化學習框架，旨在訓練大型語言模型（LLM）推理代理，適用于交互式和隨機環境。它基于StarPO（狀態-思考-行動-獎勵政策優化）框架，能夠通過多輪交互來優化整個交互路徑，有效提升推理能力。RAGEN使用馬爾可夫決策過程（MDP）形式化代理與環境的互動，引入漸進式獎勵歸一化策略，從而有效應對多輪強化學習中的不穩定性。該框架的代碼結構經過優化，分為環境管理器、上下文管理器和代理模塊，便于擴展和實驗。RAGEN支持多種環境，如Sokoban和FrozenLake，展現出良好的泛化能力。

RAGEN的主要功能

多輪交互與軌跡優化：通過StarPO框架，RAGEN將代理與環境的互動形式化為馬爾可夫決策過程（MDP），優化整個交互軌跡，而不僅僅是單步動作。這種全軌跡優化策略能夠幫助代理在復雜環境中做出更加合理的決策。
強化學習算法支持：RAGEN兼容多種強化學習算法，包括PPO、GRPO和BRPO等，為研究者提供了靈活的算法選項。
易于擴展的環境支持：RAGEN支持多種環境，如Sokoban和FrozenLake，并提供添加自定義環境的接口，方便研究人員進行實驗。
穩定性和效率提升：RAGEN通過基于方差的軌跡過濾、引入“評論家”以及解耦裁剪等技術，有效提升了訓練的穩定性和效率。

RAGEN的技術原理

MDP形式化：RAGEN將代理與環境的互動形式化為馬爾可夫決策過程（MDP），其中狀態和動作為token序列，支持LLM對環境動態進行推理。
StarPO框架：該框架通過兩個交替階段進行訓練：
- Rollout階段：在給定初始狀態的情況下，LLM生成多條推理引導的交互軌跡，每一步接收軌跡歷史并生成動作。
- Update階段：生成軌跡后，利用重要性采樣優化整個軌跡的預期獎勵，進行非單步優化，以實現長遠推理。
優化策略：StarPO支持多種強化學習算法，如PPO（近端策略優化）和GRPO（歸一化獎勵策略優化），適應不同的訓練需求。
漸進式獎勵歸一化策略：為了解決多輪訓練中的不穩定性，RAGEN引入了基于不確定性的過濾、去除KL懲罰和不對稱PPO裁剪等策略。
模塊化設計：RAGEN采用模塊化架構，包括環境狀態管理器、上下文管理器和代理模塊，便于擴展和定制。