僅靠邏輯題，AI數(shù)學(xué)競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

在完全未見過的美國數(shù)學(xué)奧林匹克（AIME）測試中，該模型的推理性能提升了125%！

原標(biāo)題：僅靠邏輯題，AI數(shù)學(xué)競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6931字

DeepSeek R1：僅用5000條合成數(shù)據(jù)，大幅提升AI數(shù)學(xué)競賽水平

機(jī)器之心AIxiv專欄報(bào)道了微軟亞洲研究院、九坤投資和研究員合作完成的一項(xiàng)最新研究，該研究揭秘了DeepSeek R1模型如何通過低成本強(qiáng)化學(xué)習(xí)，在邏輯推理測試中取得顯著突破。該研究論文題為《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》，已發(fā)布在arXiv上。

1. 研究目標(biāo)及方法

該研究旨在探究強(qiáng)化學(xué)習(xí)在提升大型語言模型 (LLM) 邏輯推理能力中的有效性，并解答一系列關(guān)鍵問題，例如：最佳強(qiáng)化學(xué)習(xí)算法選擇、冷啟動與基于基礎(chǔ)模型啟動的差異、模型輸出長度與推理能力的關(guān)系、特定詞匯與推理能力的關(guān)聯(lián)，以及強(qiáng)化學(xué)習(xí)與監(jiān)督微調(diào)的優(yōu)劣比較等。

研究團(tuán)隊(duì)采用完全由程序合成的邏輯謎題作為訓(xùn)練數(shù)據(jù)，這些謎題具有難度可控、答案明確等優(yōu)點(diǎn)，有效避免了自然語言任務(wù)中常見的模糊性。他們設(shè)計(jì)了一個(gè)基于規(guī)則的獎勵(lì)系統(tǒng)，幾乎杜絕了模型作弊行為，并通過 REINFORCE++ 算法進(jìn)行訓(xùn)練。

2. 關(guān)鍵發(fā)現(xiàn)

研究發(fā)現(xiàn)，僅需5000條合成邏輯謎題，7B參數(shù)規(guī)模的小模型就能在邏輯推理測試中超越OpenAI o1，逼近o3-mini-high的性能。在未見過的美國數(shù)學(xué)奧林匹克（AIME）測試中，推理性能提升了125%。

一些有趣的發(fā)現(xiàn)包括：

詞匯與推理能力： 諸如“verify”、“check”等反思性詞匯的出現(xiàn)與推理性能提升相關(guān)，但并非所有此類詞匯都具有積極作用。“recheck”反而可能表明模型猶豫不決，增加錯(cuò)誤概率。
語言混雜： 中英夾雜會降低模型性能，建議在獎勵(lì)系統(tǒng)中加入語言一致性懲罰。
“頓悟時(shí)刻”： 研究并未發(fā)現(xiàn)模型訓(xùn)練過程中存在突如其來的“Aha moment”，與反思相關(guān)的詞匯在訓(xùn)練初期就已經(jīng)出現(xiàn)，只是頻率較低。
強(qiáng)化學(xué)習(xí)vs.監(jiān)督微調(diào)： 強(qiáng)化學(xué)習(xí)在不依賴數(shù)據(jù)結(jié)構(gòu)的情況下，以極低的數(shù)據(jù)代價(jià)實(shí)現(xiàn)了高效進(jìn)化，展現(xiàn)出強(qiáng)大的泛化性，優(yōu)于監(jiān)督微調(diào)。
輸出長度與性能： 模型輸出長度的增加并不一定代表推理性能的提升，過長的輸出反而可能導(dǎo)致“過度思考”和錯(cuò)誤。

3. 代碼和數(shù)據(jù)開源

該團(tuán)隊(duì)完整開源了全流程代碼、參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)和設(shè)計(jì)經(jīng)驗(yàn)，為后續(xù)研究提供了寶貴的參考。

4. 結(jié)論

這項(xiàng)研究證明了強(qiáng)化學(xué)習(xí)在提升LLM邏輯推理能力方面的巨大潛力，并為未來研究提供了諸多有價(jià)值的經(jīng)驗(yàn)和啟示。其低成本、高效率的訓(xùn)練方法，為AI在數(shù)學(xué)及其他邏輯推理領(lǐng)域的應(yīng)用開辟了新的道路。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# 7B參數(shù)模型 # AI數(shù)學(xué)競賽 # 九坤投資 # 小模型性能提升 # 邏輯推理AI

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

僅靠邏輯題，AI數(shù)學(xué)競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

在完全未見過的美國數(shù)學(xué)奧林匹克（AIME）測試中，該模型的推理性能提升了125%！

DeepSeek R1：僅用5000條合成數(shù)據(jù)，大幅提升AI數(shù)學(xué)競賽水平

1. 研究目標(biāo)及方法

2. 關(guān)鍵發(fā)現(xiàn)

3. 代碼和數(shù)據(jù)開源

4. 結(jié)論

聯(lián)系作者

在線教程丨石磯娘娘秒變「川渝妹子」？Step-Audio-TTS實(shí)現(xiàn)語音克隆/音樂合成/語音合成三合一

中文比R1絲滑、玩寶可夢還賊溜？全球首個(gè)混合推理模型Claude 3.7 Sonnet太驚艷，網(wǎng)友直呼“孤獨(dú)求敗”！

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)