rStar2-Agent

rStar2-Agent – 微軟開源的數學推理模型

核心觀點與關鍵信息：

rStar2-Agent是微軟推出的一款僅140億參數的數學推理模型，采用智能體強化學習技術訓練，在AIME24數學推理測試中取得80.6%的驚人準確率，性能超越參數量達6710億的DeepSeek-R1。該模型不僅數學推理能力出眾，在科學推理和智能體工具調用方面也展現出強大的泛化能力。通過三大技術突破——高效訓練基礎設施、創新算法（GRPO-RoC）及多階段強化學習流程——rStar2-Agent實現了高性能與低算力成本的完美平衡，為AI推理領域帶來了新的視角和解決方案。

揭秘rStar2-Agent：微軟開源的顛覆性數學推理模型

微軟最新發布的rStar2-Agent，是一款僅擁有140億參數卻在數學推理領域大放異彩的開源模型。它并非傳統的模型，而是通過尖端的智能體強化學習方法精心雕琢而成。令人矚目的是，在備受挑戰的AIME24數學推理測試中，rStar2-Agent硬是斬獲了高達80.6%的準確率，這一成就不僅令人刮目相看，更重要的是，它以壓倒性的優勢超越了擁有6710億龐大參數的DeepSeek-R1模型。

rStar2-Agent的卓越能力

rStar2-Agent的核心競爭力在于其出色的數學推理能力。它能夠在AIME24等嚴苛的數學測試中，以相對較小的模型規模，實現令人驚嘆的準確率，這意味著它能迅速而精準地攻克復雜的數學難題。

不僅如此，rStar2-Agent的觸角還延伸到了科學推理領域。在GPQA-Diamond科學推理基準測試中，它取得了60.9%的準確率，充分證明了其對科學知識的深刻理解和推理潛力，為科學問題的解答提供了強大的支持。

此外，rStar2-Agent還具備智能工具調用的能力。它能夠根據用戶問題的具體需求，靈活地調用恰當的工具，例如代碼執行工具，從而極大地提高了解決問題的效率。

更值得一提的是，rStar2-Agent展現出了強大的泛化能力。它不僅在特定領域表現優異，還能將推理能力靈活地遷移到其他多種任務和領域，預示著其廣闊的應用前景。

rStar2-Agent背后的技術引擎

rStar2-Agent的非凡表現，離不開其背后強大的技術支撐。其核心訓練方法是智能體強化學習。模型能夠與特定的工具環境進行深度交互，并依據環境反饋不斷優化其推理過程。通過獎勵機制的引導，模型得以學習更精妙的推理策略，從而實現高效的學習和推理能力的飛躍。

為了支撐如此高效的訓練，微軟構建了先進的訓練基礎設施。利用隔離式高吞吐代碼執行服務，并基于由64臺AMD MI300X GPU組成的分布式架構，rStar2-Agent得以實現高并發的工具調用和極速執行，確保了訓練過程的穩定與高效。

在算法層面，GRPO-RoC算法是rStar2-Agent的另一項創新。該算法融合了Resample-on-Correct滾出策略，旨在優化工具的使用。通過不對稱采樣機制，它能夠篩選出高質量的推理軌跡，有效降低錯誤率，從而使模型的推理過程更加精準和高效。

rStar2-Agent的訓練流程也頗具匠心。它采用了多階段強化學習的訓練方式，首先通過非推理微調來培養模型的基礎能力，接著分階段進行強化學習，逐步打磨其推理技巧。令人稱道的是，在64臺GPU的強大算力下，僅用一周時間即可完成訓練并達到性能峰值，這極大地降低了算力成本，為AI推理領域帶來了新的發展思路。