<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        AIGC動(dòng)態(tài)4個(gè)月前發(fā)布 智猩猩GenAI
        535 0 0

        共同一作為MSRA實(shí)習(xí)生、北大er

        讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

        原標(biāo)題:讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):8751字

        微軟rStar-Math算法:賦能小模型數(shù)學(xué)推理能力

        本文總結(jié)了微軟亞洲研究院(MSRA)最新研發(fā)的rStar-Math算法,該算法顯著提升了小語言模型(SLM)的數(shù)學(xué)推理能力,甚至在某些方面超越了大型模型。文章還預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì)。

        1. rStar-Math算法的核心創(chuàng)新

        rStar-Math的核心在于通過蒙特卡洛樹搜索(MCTS)和三項(xiàng)創(chuàng)新方法,讓小模型在不依賴大型教師模型的情況下,通過多輪自我進(jìn)化,掌握數(shù)學(xué)推理能力:

        1. 代碼增強(qiáng)CoT數(shù)據(jù)合成方法:該方法利用MCTS生成具有自我注釋的推理軌跡,并生成對(duì)應(yīng)的Python代碼進(jìn)行驗(yàn)證,確保每一步推理的正確性,減少錯(cuò)誤步驟。
        2. 過程獎(jiǎng)勵(lì)模型訓(xùn)練方法:通過引入過程偏好模型(PPM),可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測獎(jiǎng)勵(lì)標(biāo)簽,即使Q值不精確也能有效區(qū)分正確和錯(cuò)誤步驟。
        3. 四輪自我思維深度進(jìn)化:通過四輪迭代,逐步生成更高質(zhì)量的數(shù)據(jù),并通過更具挑戰(zhàn)性的數(shù)學(xué)問題擴(kuò)展訓(xùn)練集,不斷提升模型能力。

        這三項(xiàng)創(chuàng)新有效解決了現(xiàn)有方法中高質(zhì)量數(shù)據(jù)稀缺、訓(xùn)練過程容易出錯(cuò)等難題,使得小模型能夠進(jìn)行深度思考,并逐步提升數(shù)學(xué)推理能力。

        2. 實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

        實(shí)驗(yàn)結(jié)果顯示,rStar-Math顯著提升了SLM的數(shù)學(xué)推理能力,在多個(gè)基準(zhǔn)測試中取得了優(yōu)異的成績:

        1. 在MATH基準(zhǔn)測試中,將Qwen2.5-Math-7B的準(zhǔn)確率從58.8%提升到90.0%,Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%提升到87.8%,均超越了OpenAI o1-preview。
        2. 在美國數(shù)學(xué)競賽AIME 2024測試中,Qwen2.5-Math-7B的平均解題率達(dá)到53.3%,超過所有其他開源大模型,躋身最聰明高中生數(shù)學(xué)前20%。
        3. 在其他具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試(如College Math、奧賽基準(zhǔn)、中國高考數(shù)學(xué)考試)中也表現(xiàn)出色,展現(xiàn)了其通用性。

        實(shí)驗(yàn)結(jié)果驗(yàn)證了rStar-Math的有效性,也表明在固定計(jì)算預(yù)算下,小模型在某些推理問題上可以超越大型模型。

        3. rStar-Math團(tuán)隊(duì)及論文信息

        rStar-Math論文的共同一作分別來自微軟亞洲研究院和北京大學(xué)、清華大學(xué)的實(shí)習(xí)生。論文已上傳至arXiv,代碼和數(shù)據(jù)也已公開發(fā)布在GitHub上。

        4. 第四屆全球自動(dòng)駕駛峰會(huì)預(yù)告

        文章最后預(yù)告了1月14日在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛領(lǐng)域的多個(gè)主題,包括端到端自動(dòng)駕駛創(chuàng)新、城市NOA、自動(dòng)駕駛視覺語言模型和自動(dòng)駕駛世界模型等。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 精品国产污污免费网站aⅴ| 99精品全国免费观看视频..| 成年人免费的视频| 老汉色老汉首页a亚洲| 七色永久性tv网站免费看| 亚洲精品午夜国产VA久久成人| 五级黄18以上免费看| 亚洲成A∨人片天堂网无码| 综合一区自拍亚洲综合图区| 免费吃奶摸下激烈视频| 免费大片黄在线观看| 色噜噜AV亚洲色一区二区| 99精品免费视品| 久久综合亚洲色HEZYO社区| 一级毛片免费毛片一级毛片免费| 久久青青草原亚洲av无码app| 99在线热视频只有精品免费| 亚洲欧洲精品在线| 成年男女男精品免费视频网站| 亚洲heyzo专区无码综合| 免费99热在线观看| 99精品视频免费| 亚洲第一永久在线观看| 在线免费视频一区| 久久er国产精品免费观看8| 亚洲国产精品一区二区成人片国内| 亚洲免费视频网站| 亚洲黄色激情视频| 亚洲国产综合久久天堂| a级日本高清免费看| 亚洲精品欧洲精品| 免费人成视频x8x8入口| 久久伊人免费视频| 在线观看亚洲AV日韩AV| 亚洲国产成人久久笫一页| 免费网站看av片| 亚洲精品成a人在线观看夫| 亚洲日韩v无码中文字幕| 97性无码区免费| 一级毛片免费在线播放| 亚洲精品亚洲人成在线麻豆|