7B模型數學推理擊穿o1，直逼全美20%尖子生！四輪進化，微軟華人新作爆火

原標題：7B模型數學推理擊穿o1，直逼全美20%尖子生！四輪進化，微軟華人新作爆火
文章來源：新智元
內容字數：8194字

微軟小模型在數學推理上超越OpenAI o1：rStar-Math算法詳解

近日，微軟亞研院全華人團隊提出了一種名為rStar-Math的新算法，使小語言模型（SLM）在數學推理能力上取得突破性進展，甚至超越了OpenAI的o1模型，引發AI社區廣泛關注。該研究成果發表在arXiv上，論文鏈接為：https://arxiv.org/pdf/2501.04519。

rStar-Math的核心思想：深度思考
rStar-Math的核心在于賦予小模型“深度思考”的能力。該算法借鑒了AlphaGo中的蒙特卡洛樹搜索（MCTS）技術，設計了一個由兩個協同工作的SLM組成的系統：一個數學策略小語言模型（SLM）和一個過程獎勵模型（PRM）。通過MCTS，系統可以探索多種解題路徑，并選擇最優解。
三大技術創新
rStar-Math包含三大技術創新：
1. 全新代碼增強CoT數據合成方法：將數學問題求解分解為MCTS中的多步驟生成，通過驗證Python代碼的執行結果來確保中間步驟的正確性，并根據步驟貢獻自動分配Q值，提高數據質量。
2. 全新PRM訓練方法：利用MCTS生成的Q值構建偏好對，使用成對排名損失來訓練PRM，避免了直接使用Q值作為獎勵標簽帶來的噪聲和不精確。
3. 自我進化方案：通過四輪迭代，逐步提升策略模型和PRM的性能，并生成更高質量的訓練數據，最終解決更多高難度的數學問題。
自我進化過程詳解
rStar-Math的自我進化過程包含四輪：第一輪引導訓練初始策略模型；第二輪訓練可靠的PRM；第三輪利用PRM增強MCTS生成更高質量數據；第四輪解決高難度數學問題，提升訓練集覆蓋率。每一輪都迭代改進策略模型、PRM和訓練數據。
實驗結果與分析
rStar-Math在多個數學基準測試中取得了顯著成果，包括MATH、GSM8K和AIME，其性能甚至超過了o1-preview，并在美國數學奧林匹克（AIME）中取得了53.3%的亮眼成績。實驗結果顯示，rStar-Math顯著提升了SLM的數學推理能力，并展現出強大的泛化能力。
關鍵發現：內在自我反思能力
研究人員意外地發現，MCTS驅動的深度思考過程中，模型展現出內在的自我反思能力，能夠識別并糾正錯誤的步驟，這在之前的開源大語言模型中并不常見。
結論
rStar-Math通過巧妙地結合MCTS、代碼增強CoT數據合成和自我進化方案，顯著提升了小模型的數學推理能力，為未來的AI發展提供了新的方向。該研究表明，即使是小模型，也能在特定任務上達到甚至超越大型模型的性能，為構建更強大、更高效的AI系統提供了新的思路。