国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

上海AI Lab重塑大模型挑戰(zhàn)，數(shù)學(xué)能力評(píng)分大幅回落！

AIGC動(dòng)態(tài)12個(gè)月前發(fā)布量子位

482 0 0

最強(qiáng)推理模型o1-mini也會(huì)下降3成6

上海AI Lab重塑大模型挑戰(zhàn)，數(shù)學(xué)能力評(píng)分大幅回落！

原標(biāo)題：GPT-4o數(shù)學(xué)能力跑分直掉50%，上海AI Lab開(kāi)始給大模型重新出題了
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：7405字

新模型在數(shù)學(xué)推理能力評(píng)估中的挑戰(zhàn)

近日，上海人工智能實(shí)驗(yàn)室司南OpenCompass團(tuán)隊(duì)針對(duì)大型語(yǔ)言模型在數(shù)學(xué)推理能力上的表現(xiàn)，推出了全新的復(fù)雜數(shù)學(xué)評(píng)測(cè)集LiveMathBench，并引入了G-Pass@16?這一新評(píng)估指標(biāo)。研究發(fā)現(xiàn)，盡管許多模型在傳統(tǒng)評(píng)測(cè)中表現(xiàn)良好，但在真實(shí)使用場(chǎng)景下，其數(shù)學(xué)推理能力卻大幅下降。

1. G-Pass@k指標(biāo)的創(chuàng)新

傳統(tǒng)的Pass@k指標(biāo)主要關(guān)注模型在多次生成中至少給出一次正確答案的概率，而未能充分考慮模型的穩(wěn)定性。為此，研究團(tuán)隊(duì)提出了Generalized Pass@k（G-Pass@k?），通過(guò)引入閾值?，來(lái)同時(shí)評(píng)估模型的性能潛力和穩(wěn)定性。G-Pass@k?在不同?值下，能夠反映模型的真實(shí)掌握程度，尤其是在處理復(fù)雜推理任務(wù)時(shí)。

2. LiveMathBench的構(gòu)建

LiveMathBench包含238道題目，涵蓋中國(guó)數(shù)學(xué)奧林匹克、高考模擬題及美國(guó)數(shù)學(xué)競(jìng)賽等，旨在降低數(shù)據(jù)污染的風(fēng)險(xiǎn)。通過(guò)對(duì)多種模型進(jìn)行評(píng)測(cè)，研究團(tuán)隊(duì)希望能持續(xù)觀察其在數(shù)學(xué)推理上的真實(shí)表現(xiàn)。

3. 評(píng)測(cè)結(jié)果與發(fā)現(xiàn)

實(shí)驗(yàn)結(jié)果顯示，絕大多數(shù)模型在G-Pass@16?上的得分均未超過(guò)30分，且在高難度題目上表現(xiàn)明顯不佳。即便是表現(xiàn)相對(duì)較好的o1-mini模型，其得分也僅為42分，且整體性能下降顯著。此外，研究表明，增大模型規(guī)模并未必能提升推理能力，且模型在保持一致性和穩(wěn)定性方面仍存在挑戰(zhàn)。

4. 結(jié)論與未來(lái)展望

本研究深入探討了當(dāng)前大型模型在數(shù)學(xué)推理能力上的不足，強(qiáng)調(diào)了在高可靠性應(yīng)用中，提升模型的魯棒性與穩(wěn)定性的重要性。研究團(tuán)隊(duì)期待學(xué)術(shù)界及工業(yè)界在推理能力的魯棒性上持續(xù)探索與創(chuàng)新，以更好地滿足實(shí)際應(yīng)用需求。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# AILab # 人工智能 # 大模型 # 數(shù)學(xué)能力 # 重新出題

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<code id="anqdy"><wbr id="anqdy"><td id="anqdy"></td></wbr></code>
<cite id="anqdy"></cite>

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

上海AI Lab重塑大模型挑戰(zhàn)，數(shù)學(xué)能力評(píng)分大幅回落！

最強(qiáng)推理模型o1-mini也會(huì)下降3成6

新模型在數(shù)學(xué)推理能力評(píng)估中的挑戰(zhàn)

1. G-Pass@k指標(biāo)的創(chuàng)新

2. LiveMathBench的構(gòu)建

3. 評(píng)測(cè)結(jié)果與發(fā)現(xiàn)

4. 結(jié)論與未來(lái)展望

聯(lián)系作者

思必馳俞凱：分布式大模型智能體系統(tǒng)是 AGI 時(shí)代一道別樣的風(fēng)景

華為全家桶升級(jí)為純血鴻蒙：揭示它背后的強(qiáng)大秘密！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

上海AI Lab重塑大模型挑戰(zhàn)，數(shù)學(xué)能力評(píng)分大幅回落！

最強(qiáng)推理模型o1-mini也會(huì)下降3成6

新模型在數(shù)學(xué)推理能力評(píng)估中的挑戰(zhàn)

1. G-Pass@k指標(biāo)的創(chuàng)新

2. LiveMathBench的構(gòu)建

3. 評(píng)測(cè)結(jié)果與發(fā)現(xiàn)

4. 結(jié)論與未來(lái)展望

聯(lián)系作者

思必馳俞凱：分布式大模型智能體系統(tǒng)是 AGI 時(shí)代一道別樣的風(fēng)景

華為全家桶升級(jí)為純血鴻蒙：揭示它背后的強(qiáng)大秘密！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

上海AI Lab重塑大模型挑戰(zhàn)，數(shù)學(xué)能力評(píng)分大幅回落！