<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        AIGC動態8個月前發布 量子位
        460 0 0

        最強推理模型o1-mini也會下降3成6

        上海AI Lab重塑大模型挑戰,數學能力評分大幅回落!

        原標題:GPT-4o數學能力跑分直掉50%,上海AI Lab開始給大模型重新出題
        文章來源:量子位
        內容字數:7405字

        新模型在數學推理能力評估中的挑戰

        近日,上海人工智能實驗室司南OpenCompass團隊針對大型語言模型在數學推理能力上的表現,推出了全新的復雜數學評測集LiveMathBench,并引入了G-Pass@16?這一新評估指標。研究發現,盡管許多模型在傳統評測中表現良好,但在真實使用場景下,其數學推理能力卻大幅下降。

        1. G-Pass@k指標的創新

        傳統的Pass@k指標主要關注模型在多次生成中至少給出一次正確答案的概率,而未能充分考慮模型的穩定性。為此,研究團隊提出了Generalized Pass@k(G-Pass@k?),通過引入閾值?,來同時評估模型的性能潛力和穩定性。G-Pass@k?在不同?值下,能夠反映模型的真實掌握程度,尤其是在處理復雜推理任務時。

        2. LiveMathBench的構建

        LiveMathBench包含238道題目,涵蓋中國數學奧林匹克、高考模擬題及美國數學競賽等,旨在降低數據污染的風險。通過對多種模型進行評測,研究團隊希望能持續觀察其在數學推理上的真實表現。

        3. 評測結果與發現

        實驗結果顯示,絕大多數模型在G-Pass@16?上的得分均未超過30分,且在高難度題目上表現明顯不佳。即便是表現相對較好的o1-mini模型,其得分也僅為42分,且整體性能下降顯著。此外,研究表明,增大模型規模并未必能提升推理能力,且模型在保持一致性和穩定性方面仍存在挑戰。

        4. 結論與未來展望

        本研究深入探討了當前大型模型在數學推理能力上的不足,強調了在高可靠性應用中,提升模型的魯棒性與穩定性的重要性。研究團隊期待學術界及工業界在推理能力的魯棒性上持續探索與創新,以更好地滿足實際應用需求。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕亚洲综合小综合在线| 亚洲一级Av无码毛片久久精品| 亚洲精品国产第一综合99久久| 亚洲成人国产精品| 亚洲w码欧洲s码免费| 中文字幕av免费专区| 国产午夜亚洲精品不卡| 亚洲国产成+人+综合| 国产亚洲精品a在线观看app | 永久久久免费浮力影院| 96免费精品视频在线观看| 亚洲精品偷拍视频免费观看| 蜜桃传媒一区二区亚洲AV | APP在线免费观看视频| 亚洲heyzo专区无码综合| 亚洲一欧洲中文字幕在线| 亚洲Av熟妇高潮30p| 亚洲大成色www永久网站| 亚洲AV无码一区二区三区国产| 日韩特黄特色大片免费视频| 免费电影在线观看网站| 好先生在线观看免费播放| 精品女同一区二区三区免费站 | 久久久久亚洲Av片无码v| 午夜亚洲国产理论秋霞| 久久水蜜桃亚洲av无码精品麻豆| 亚洲成色在线影院| 亚洲国产理论片在线播放| 亚洲日韩乱码久久久久久| 亚洲中文字幕无码中文字| 苍井空亚洲精品AA片在线播放| 亚洲日韩AV一区二区三区四区| 精品国产日韩亚洲一区在线| 美女无遮挡拍拍拍免费视频| 99视频在线免费| 亚洲AV无码乱码在线观看| 亚洲国产精品国自产电影| 亚洲中文字幕一区精品自拍| aa在线免费观看| 四虎www免费人成| 亚洲色大成网站WWW久久九九|