不蒸餾R1也能超越DeepSeek，上海 AI Lab 用RL突破數(shù)學(xué)推理極限

基于結(jié)果獎勵的強化學(xué)習(xí)新范式

原標題：不蒸餾R1也能超越DeepSeek，上海 AI Lab 用RL突破數(shù)學(xué)推理極限
文章來源：量子位
內(nèi)容字數(shù)：4875字

上海AI Lab突破數(shù)學(xué)推理瓶頸：強化學(xué)習(xí)超越蒸餾，無需超大模型

上海AI Lab近日取得重大突破，其基于結(jié)果獎勵的強化學(xué)習(xí)新范式OREAL，在數(shù)學(xué)推理任務(wù)中超越了DeepSeek-R1等超大模型的性能。這項研究顛覆了傳統(tǒng)依賴于蒸餾超大模型的范式，僅通過微調(diào)和基于結(jié)果反饋的強化學(xué)習(xí)，便在7B和32B模型上取得了令人矚目的成果。

1. 挑戰(zhàn)“三重門”：數(shù)學(xué)推理的困境

當前大模型數(shù)學(xué)推理面臨“三重門”困境：稀疏獎勵困境（僅有最終答案的二元反饋）、局部正確陷阱（部分正確步驟可能誤導(dǎo)模型）以及規(guī)模依賴魔咒（依賴超大模型蒸餾）。

2. OREAL：重新定義結(jié)果獎勵強化學(xué)習(xí)

為了解決這些難題，上海AI Lab團隊重新設(shè)計了結(jié)果獎勵強化學(xué)習(xí)算法OREAL。該算法的核心在于對正負樣本和長序列的處理策略：

正樣本：利用最佳軌跡采樣（BoN）的行為克隆，學(xué)習(xí)最優(yōu)策略。
負樣本：采用獎勵重塑，維護策略優(yōu)化目標的一致性，避免梯度偏差。
長序列：設(shè)計token重要性估計器，構(gòu)建序列累計形式的獎勵函數(shù)，實現(xiàn)更細粒度的獎勵分配，精確定位核心錯誤步驟。

OREAL的策略可以概括為：在正確樣本上模仿學(xué)習(xí)，在錯誤樣本上偏好學(xué)習(xí)，對關(guān)鍵步驟做重點學(xué)習(xí)。

3. 實驗結(jié)果：超越DeepSeek-R1及其他模型

在7B和32B模型上，OREAL僅使用4000條高質(zhì)量訓(xùn)練樣本，便取得了顯著成果：Oreal-7B在MATH-500上達到91.0的pass@1準確率，超越了QWQ-32B-Preview和OpenAI-O1-Mini；Oreal-32B在MATH-500上達到95.0的分數(shù)，超越了DeepSeek-r1-Distill-Qwen-32B。將OREAL應(yīng)用于DeepSeek-r1-Distill-Qwen-7B后，更是創(chuàng)下了7B模型的新記錄(94.0 pass@1精度)。

4. 起點模型和數(shù)據(jù)的重要性

研究團隊還發(fā)現(xiàn)，起點模型和訓(xùn)練數(shù)據(jù)對最終模型效果至關(guān)重要。起點模型越強，RL后的性能越好。高質(zhì)量的數(shù)據(jù)集能夠讓模型充分發(fā)揮其潛力。因此，團隊開源了RL訓(xùn)練的數(shù)據(jù)、起點和最終模型，以促進社區(qū)的公平比較和進一步研究。

5. 結(jié)論與未來展望

OREAL的成功證明了基于結(jié)果獎勵的強化學(xué)習(xí)在數(shù)學(xué)推理任務(wù)中的巨大潛力，它擺脫了對超大模型蒸餾的依賴，為降低大模型訓(xùn)練成本提供了新的思路。然而，訓(xùn)練數(shù)據(jù)的質(zhì)量、難度和數(shù)量仍然是影響RL性能的關(guān)鍵因素，這為未來的研究留下了空間。

項目鏈接：https://github.com/InternLM/OREAL

論文地址：https://arxiv.org/abs/2502.06781

RL 訓(xùn)練數(shù)據(jù)鏈接：https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址：https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018