rStar-Math

rStar-Math – 微軟推出的小模型復(fù)雜推理與自進化SLMs的創(chuàng)新技術(shù)

rStar-Math是微軟亞洲研究院推出的一項前沿研究項目，利用蒙特卡洛樹搜索（MCTS）驅(qū)動的深度思考，使得小型語言模型（SLMs）在數(shù)學(xué)推理方面的表現(xiàn)達到甚至超越OpenAI的大型模型。該項目通過自我進化的深度思考，顯著提升了模型性能，無需依賴于更高級模型的數(shù)據(jù)蒸餾。

rStar-Math是什么

rStar-Math是微軟亞洲研究院開發(fā)的一項創(chuàng)新性研究項目，通過蒙特卡洛樹搜索（MCTS）實現(xiàn)深度推理，使小型語言模型（SLMs）在數(shù)學(xué)推理的能力上達到甚至超過OpenAI的大型模型。該項目不依賴于從更高階模型進行數(shù)據(jù)蒸餾，而是通過自我進化的方式提升模型的性能。rStar-Math引入了三種創(chuàng)新技術(shù)：代碼增強的逐步驗證推理軌跡合成、基于Q值的過程偏好模型（PPM）訓(xùn)練方法，以及四輪自我進化的訓(xùn)練策略。在MATH基準(zhǔn)測試中，rStar-Math將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升至90.0%，并在AIME 2024測試中平均解決了53.3%的問題，超越了OpenAI的o1-preview模型。rStar-Math展現(xiàn)了模型的內(nèi)在自我反思能力，能夠在推理過程中識別并糾正錯誤的步驟。

rStar-Math

rStar-Math的主要功能

生成高質(zhì)量的數(shù)學(xué)推理軌跡：依托蒙特卡洛樹搜索（MCTS）生成逐步驗證的推理軌跡，確保每個推理步驟的準(zhǔn)確性和高質(zhì)量。
自我進化：通過四輪自我進化，不斷優(yōu)化策略模型和過程偏好模型（PPM）的性能，以應(yīng)對更復(fù)雜的數(shù)學(xué)問題。
提升模型準(zhǔn)確率：在多項數(shù)學(xué)基準(zhǔn)測試中，顯著提高模型的準(zhǔn)確率，例如在MATH基準(zhǔn)測試中將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升至90.0%。
自我反思能力：該模型能夠在推理過程中識別并修正錯誤的步驟，展現(xiàn)出卓越的自我反思能力。

rStar-Math的技術(shù)原理

代碼增強的逐步驗證推理軌跡合成
- MCTS驅(qū)動的深度思考：將復(fù)雜的數(shù)學(xué)問題分解為多項單步生成任務(wù)，基于MCTS逐步構(gòu)建搜索樹，生成推理軌跡。
- 代碼執(zhí)行驗證：策略模型生成自然語言（NL）推理步驟及相應(yīng)的Python代碼。
- Q值標(biāo)注：通過終端引導(dǎo)標(biāo)注和PPM增強標(biāo)注兩種方法，為每個步驟自動分配Q值，引導(dǎo)MCTS節(jié)點選擇并識別高質(zhì)量步驟。
過程偏好模型（PPM）訓(xùn)練方法
- 避免直接使用Q值：傳統(tǒng)的Q值作為獎勵標(biāo)簽可能存在噪聲和不準(zhǔn)確的問題。rStar-Math通過構(gòu)建步驟級的正負偏好對，利用成對排名損失來訓(xùn)練PPM，從而提升標(biāo)簽的可靠性。
- 偏好對構(gòu)建：為每個步驟選擇Q值最高的兩個步驟作為正例，Q值最低的兩個步驟作為負例。PPM通過這些偏好對進行訓(xùn)練，預(yù)測每個步驟的獎勵標(biāo)簽。
四輪自我進化
- 初始強策略模型：第一輪使用DeepSeek-Coder-V2-Instruct作為初始策略模型，通過MCTS rollout生成訓(xùn)練數(shù)據(jù)。
- 可靠PPM訓(xùn)練：第二輪利用更新后的策略模型進行更可靠的Q值標(biāo)注，訓(xùn)練出第一個可靠的PPM。
- PPM增強MCTS：第三輪使用可靠的PPM進行MCTS，生成更高質(zhì)量的推理軌跡，覆蓋更多數(shù)學(xué)和競賽級問題。
- 解決挑戰(zhàn)性問題：第四輪增加MCTS rollout次數(shù)和不同的隨機種子，以提高對競賽級問題的覆蓋率。

rStar-Math的項目地址

arXiv技術(shù)論文：https://arxiv.org/pdf/2501.04519

rStar-Math的應(yīng)用場景

教育輔導(dǎo)：為學(xué)生提供個性化的數(shù)學(xué)學(xué)習(xí)輔導(dǎo)，幫助他們逐步解決復(fù)雜的數(shù)學(xué)問題，提高解題能力和理解力。
科研支持：輔助數(shù)學(xué)家和科學(xué)家探討復(fù)雜的數(shù)學(xué)問題，生成初步解題思路和驗證步驟，加速研究進程。
金融科技：在金融風(fēng)險評估和量化交易中，基于精準(zhǔn)的數(shù)學(xué)模型和推理，預(yù)測市場風(fēng)險并優(yōu)化交易策略。
工程設(shè)計：在工程設(shè)計和系統(tǒng)優(yōu)化中，運用數(shù)學(xué)推理優(yōu)化系統(tǒng)參數(shù)，提升系統(tǒng)的性能和可靠性。
數(shù)據(jù)分析：在企業(yè)數(shù)據(jù)分析中，基于數(shù)學(xué)模型和推理，從大量數(shù)據(jù)中提取有價值的信息，支持市場預(yù)測和業(yè)務(wù)決策。

閱讀原文