國(guó)產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué),看看誰(shuí)第一個(gè)上岸?
大模型考研數(shù)學(xué)成績(jī)大PK。

原標(biāo)題:國(guó)產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué),看看誰(shuí)第一個(gè)上岸?
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5098字
2025考研數(shù)學(xué)真題測(cè)評(píng):深度推理大模型能力拼
機(jī)器之心發(fā)布的一篇測(cè)評(píng)文章,對(duì)國(guó)內(nèi)外多個(gè)深度推理大模型在2025年考研數(shù)學(xué)(一、二、三)試題上的表現(xiàn)進(jìn)行了評(píng)估,結(jié)果顯示深度推理模型在數(shù)學(xué)推理能力上取得了顯著進(jìn)步。
1. 測(cè)試背景與模型
文章指出,大語(yǔ)言模型在數(shù)學(xué)推理方面一直是短板,直到深度推理模型的出現(xiàn)才有所改善。此次測(cè)評(píng)選取了13個(gè)模型,包括OpenAI的GPT-o1、智譜的GLM-Zero-Preview、阿里的QwQ等深度推理模型,以及對(duì)應(yīng)的基礎(chǔ)模型,例如GPT-4。測(cè)評(píng)采用統(tǒng)一的網(wǎng)頁(yè)端進(jìn)行測(cè)試,每題作答,三次測(cè)試中至少兩次正確才算正確。
2. 測(cè)試結(jié)果與排名
測(cè)試結(jié)果顯示,OpenAI的GPT-o1以平均分領(lǐng)先,成為唯一一個(gè)超過140分的模型。智譜的GLM-Zero-Preview以138.7分位居國(guó)產(chǎn)大模型第一,緊隨其后的是阿里的QwQ。其他深度推理模型也普遍達(dá)到120分以上,而基礎(chǔ)模型GPT-4僅獲得70.7分,排名墊底。這表明深度推理模型在數(shù)學(xué)推理能力上有了顯著提升。
3. 單科分析與錯(cuò)題分布
文章對(duì)各科錯(cuò)題進(jìn)行了分析。在數(shù)學(xué)一中,部分模型在涉及曲面積分和特征向量求解的題目上出錯(cuò);數(shù)學(xué)二中,多個(gè)模型在第3、5、7題出錯(cuò);數(shù)學(xué)三中,第14、15、16、19題成為出錯(cuò)重災(zāi)區(qū)。GPT-o1的錯(cuò)誤率最低,且其出錯(cuò)的題目其他模型也普遍出錯(cuò),體現(xiàn)了其領(lǐng)先地位。
4. 深度思考模型與基礎(chǔ)模型對(duì)比
文章對(duì)比了深度推理模型與其對(duì)應(yīng)基礎(chǔ)模型的得分差異。OpenAI的GPT-o1相較于GPT-4o提升最為顯著(57.3分),其次是阿里的Qwen模型和智譜的GLM模型。深度求索和月之暗面的提升相對(duì)較小,這與其基礎(chǔ)模型本身分?jǐn)?shù)較高有關(guān)。以DeepSeek-v3為基準(zhǔn),OpenAI、智譜、阿里在深度思考模型上的性能提升最為明顯。
5. 結(jié)論
雖然OpenAI的GPT-o1仍然處于領(lǐng)先地位,但國(guó)產(chǎn)深度推理大模型正在快速追趕,智譜GLM-Zero-Preview和阿里QwQ的成績(jī)體現(xiàn)了這一趨勢(shì)。此次評(píng)測(cè)結(jié)果展現(xiàn)了深度推理模型在數(shù)學(xué)推理能力上的顯著進(jìn)步,也為大模型未來(lái)的發(fā)展方向提供了參考。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)