剛剛,階躍星辰發(fā)布Step R-mini!推理模型從此不再文理偏科
這是階躍星辰 Step 系列模型家族的首個推理模型。

原標題:剛剛,階躍星辰發(fā)布Step R-mini!推理模型從此不再文理偏科
文章來源:機器之心
內(nèi)容字數(shù):4404字
國產(chǎn)推理大模型Step Reasoner mini強勢來襲
國產(chǎn)大模型“六小虎”成員階躍星辰發(fā)布了其首個推理模型Step Reasoner mini(Step R-mini),在多個基準測試中達到SOTA水平,甚至超越了OpenAI的o1-mini模型。該模型具備強大的超長推理能力,能夠解決邏輯推理、代碼、數(shù)學等復雜問題,同時也能勝任文學創(chuàng)作等通用任務(wù),實現(xiàn)“文理兼修”。
1. Step R-mini 的核心能力與優(yōu)勢
Step R-mini 通過在推理階段增加計算量,結(jié)合思維鏈等技術(shù),實現(xiàn)了“慢思考”,能夠主動規(guī)劃、嘗試和反思,最終提供準確可靠的回復。其強大的推理能力源于高比例的強化學習(RL)訓練,以及在數(shù)據(jù)質(zhì)量、測試時計算、模型大小等方面的全面Scaling,充分驗證了Scaling Law的有效性。 它在AIME 2024和Math500數(shù)學基準測試中均達到SOTA水平,在LiveCodeBench代碼任務(wù)上也超過了o1-preview。
2. “文理兼修”的體現(xiàn)
Step R-mini 不僅能出色地完成數(shù)學、代碼和邏輯推理等任務(wù),還能進行富有創(chuàng)意的文學創(chuàng)作和日常。例如,它能夠準確解答古詩詞相關(guān)的算術(shù)問題,并解決復雜的數(shù)學題,同時還能進行富有創(chuàng)意的翻譯和中文名生成,展現(xiàn)了其強大的“文理兼修”能力。
3. Step R-mini 的訓練方法
Step R-mini 的訓練采用了大規(guī)模強化學習,并使用了On-Policy強化學習算法。階躍星辰在模型訓練過程中堅持Scaling Law原則,包括Scaling強化學習、Scaling數(shù)據(jù)質(zhì)量、Scaling Test-Time Compute和Scaling模型大小,從而提升了模型的推理能力。尤其值得一提的是,在測試階段,System 2范式使Step R-mini能夠進行高達50,000規(guī)模的思考token,實現(xiàn)了深度思考。
4. 視覺推理模型的未來展望
除了語言推理模型,階躍星辰還在開發(fā)視覺推理模型,旨在將推理能力融入更多交互形態(tài)的大模型中。該視覺推理模型將通過“慢感知”和空間推理,實現(xiàn)真正的視覺領(lǐng)域推理,而非僅僅基于圖像的文字推理。初步展示的案例表明,該模型能夠解答圖中題目、進行空間推理以及識別圖像中的數(shù)字對應(yīng)關(guān)系,展現(xiàn)了其巨大的潛力。
5. 總結(jié)
Step Reasoner mini的出現(xiàn)標志著國內(nèi)大模型在推理能力方面取得了顯著進展。其“文理兼修”的能力和強大的推理能力,為未來大模型的發(fā)展提供了新的方向。 階躍星辰在Scaling Law上的堅持和對視覺推理模型的探索,也為大模型技術(shù)的持續(xù)創(chuàng)新提供了有力支撐。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號