<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        o3-mini數(shù)學推理暴打DeepSeek-R1?AIME 2025初賽曝數(shù)據(jù)集污染大瓜

        AIGC動態(tài)7個月前發(fā)布 新智元
        187 0 0

        o3-mini數(shù)學推理暴打DeepSeek-R1?AIME 2025初賽曝數(shù)據(jù)集污染大瓜

        原標題:o3-mini數(shù)學推理暴打DeepSeek-R1?AIME 2025初賽曝數(shù)據(jù)集污染大瓜
        文章來源:新智元
        內(nèi)容字數(shù):3057字

        AIME 2025 I 數(shù)學競賽:大模型成績引發(fā)的質(zhì)疑

        近日,AIME 2025 I 數(shù)學競賽的大模型參賽結(jié)果引發(fā)熱議。o3-mini以78%的準確率奪冠,DeepSeek R1則以65%的準確率位居第四。然而,威斯康星大學麥迪遜分校教授Dimitris Papailiopoulos卻對結(jié)果提出質(zhì)疑,他發(fā)現(xiàn)一些參數(shù)量僅為1.5B的小模型也能取得50%左右的準確率,這引發(fā)了關于數(shù)據(jù)集污染和模型泛化能力的討論。

        1. 令人意外的高分

          Papailiopoulos教授對小模型的意外高分感到震驚。他認為,如果題目完全是新題,這些小模型幾乎不可能取得如此高的分數(shù)。一個連三位數(shù)乘法都難以計算的1.5B參數(shù)模型,卻能解答奧數(shù)題,這顯得異常不合理。

        2. 數(shù)據(jù)集污染的證據(jù)

          教授通過OpenAI Deep Research搜索發(fā)現(xiàn),AIME 2025 I競賽中的部分題目,與Quora、math.stackexchange以及2023年佛羅里達在線數(shù)學公開賽中的題目高度相似甚至完全相同。這強烈暗示了數(shù)據(jù)集污染的可能性,模型很可能并非真正理解并解決了問題,而是記住了答案。

        3. MathArena平臺的公平性

          MathArena平臺旨在評估大模型解決未見數(shù)學問題的推理和泛化能力。它通過標準化評估和多次重復測試來保證結(jié)果的公平性,并公開排行榜和詳細數(shù)據(jù)。然而,此次暴露了即使是精心設計的平臺,也難以完全避免數(shù)據(jù)集污染的風險。

        4. 泛化能力VS記憶能力

          此次突顯了LLM“泛化能力VS記憶能力”的爭議。模型究竟是真正理解并解決了問題,還是僅僅記住了答案?這成為一個值得深入探討的問題。Papailiopoulos教授推測,強化學習優(yōu)化策略GRPO可能在提升模型記憶的同時,也意外地提高了其數(shù)學技能。

        5. 數(shù)據(jù)凈化:新的Scaling Law?

          引發(fā)網(wǎng)友熱議,不少人認為數(shù)據(jù)凈化才是提升模型能力的關鍵,甚至有人將其稱為“新的Scaling Law”。 這反映了數(shù)據(jù)質(zhì)量對模型性能至關重要的現(xiàn)實。如何有效地凈化數(shù)據(jù),避免數(shù)據(jù)集污染,成為未來研究的重點。

        總而言之,AIME 2025 I競賽的結(jié)果引發(fā)了對大模型能力和數(shù)據(jù)集污染的深刻反思。 這不僅關系到對模型性能的準確評估,更關乎對人工智能未來發(fā)展方向的思考。 數(shù)據(jù)凈化和模型泛化能力的提升,將是未來研究的重點方向。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲成av人片不卡无码久久| 国产成人亚洲午夜电影| 亚洲 综合 国产 欧洲 丝袜| 67194国产精品免费观看| 特级毛片免费观看视频| 亚洲粉嫩美白在线| 久久亚洲日韩精品一区二区三区| 亚洲AV无码之日韩精品| 午夜dj在线观看免费视频| 99久9在线|免费| 人妻免费一区二区三区最新| 日本一区二区在线免费观看| 午夜亚洲国产理论片二级港台二级| 亚洲欧洲校园自拍都市| 亚洲欧洲国产日韩精品| 亚洲精品无码专区在线在线播放 | 亚洲视频一区二区| 午夜无遮挡羞羞漫画免费| 在线观看H网址免费入口| 在线观看人成视频免费无遮挡| 香港经典a毛片免费观看看| 亚洲精品国产av成拍色拍| 欧洲 亚洲 国产图片综合| 亚洲人成片在线观看| 亚洲天堂中文字幕在线观看| 亚洲综合在线视频| 亚洲s色大片在线观看| 亚洲午夜未满十八勿入网站2| 免费va在线观看| 国产人成免费视频| 国产男女猛烈无遮挡免费视频网站| 成人毛片手机版免费看| 四虎在线免费播放| 国产精品无码免费视频二三区| 精品少妇人妻AV免费久久洗澡| 在线观看视频免费国语| 成全视频免费高清 | 亚洲福利视频导航| 亚洲图片在线观看| 亚洲国产精品张柏芝在线观看| 亚洲免费二区三区|