<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        僅靠邏輯題,AI數(shù)學(xué)競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

        AIGC動態(tài)3個(gè)月前發(fā)布 機(jī)器之心
        509 0 0

        在完全未見過的美國數(shù)學(xué)奧林匹克(AIME)測試中,該模型的推理性能提升了125%!

        僅靠邏輯題,AI數(shù)學(xué)競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

        原標(biāo)題:僅靠邏輯題,AI數(shù)學(xué)競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):6931字

        DeepSeek R1:僅用5000條合成數(shù)據(jù),大幅提升AI數(shù)學(xué)競賽水平

        機(jī)器之心AIxiv專欄報(bào)道了微軟亞洲研究院、九坤投資和研究員合作完成的一項(xiàng)最新研究,該研究揭秘了DeepSeek R1模型如何通過低成本強(qiáng)化學(xué)習(xí),在邏輯推理測試中取得顯著突破。該研究論文題為《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》,已發(fā)布在arXiv上。

        1. 研究目標(biāo)及方法

        該研究旨在探究強(qiáng)化學(xué)習(xí)在提升大型語言模型 (LLM) 邏輯推理能力中的有效性,并解答一系列關(guān)鍵問題,例如:最佳強(qiáng)化學(xué)習(xí)算法選擇、冷啟動與基于基礎(chǔ)模型啟動的差異、模型輸出長度與推理能力的關(guān)系、特定詞匯與推理能力的關(guān)聯(lián),以及強(qiáng)化學(xué)習(xí)與監(jiān)督微調(diào)的優(yōu)劣比較等。

        研究團(tuán)隊(duì)采用完全由程序合成的邏輯謎題作為訓(xùn)練數(shù)據(jù),這些謎題具有難度可控、答案明確等優(yōu)點(diǎn),有效避免了自然語言任務(wù)中常見的模糊性。他們設(shè)計(jì)了一個(gè)基于規(guī)則的獎勵(lì)系統(tǒng),幾乎杜絕了模型作弊行為,并通過 REINFORCE++ 算法進(jìn)行訓(xùn)練。

        2. 關(guān)鍵發(fā)現(xiàn)

        研究發(fā)現(xiàn),僅需5000條合成邏輯謎題,7B參數(shù)規(guī)模的小模型就能在邏輯推理測試中超越OpenAI o1,逼近o3-mini-high的性能。在未見過的美國數(shù)學(xué)奧林匹克(AIME)測試中,推理性能提升了125%。

        一些有趣的發(fā)現(xiàn)包括:

        1. 詞匯與推理能力: 諸如“verify”、“check”等反思性詞匯的出現(xiàn)與推理性能提升相關(guān),但并非所有此類詞匯都具有積極作用。“recheck”反而可能表明模型猶豫不決,增加錯(cuò)誤概率。
        2. 語言混雜: 中英夾雜會降低模型性能,建議在獎勵(lì)系統(tǒng)中加入語言一致性懲罰。
        3. “頓悟時(shí)刻”: 研究并未發(fā)現(xiàn)模型訓(xùn)練過程中存在突如其來的“Aha moment”,與反思相關(guān)的詞匯在訓(xùn)練初期就已經(jīng)出現(xiàn),只是頻率較低。
        4. 強(qiáng)化學(xué)習(xí)vs.監(jiān)督微調(diào): 強(qiáng)化學(xué)習(xí)在不依賴數(shù)據(jù)結(jié)構(gòu)的情況下,以極低的數(shù)據(jù)代價(jià)實(shí)現(xiàn)了高效進(jìn)化,展現(xiàn)出強(qiáng)大的泛化性,優(yōu)于監(jiān)督微調(diào)。
        5. 輸出長度與性能: 模型輸出長度的增加并不一定代表推理性能的提升,過長的輸出反而可能導(dǎo)致“過度思考”和錯(cuò)誤。

        3. 代碼和數(shù)據(jù)開源

        該團(tuán)隊(duì)完整開源了全流程代碼、參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)和設(shè)計(jì)經(jīng)驗(yàn),為后續(xù)研究提供了寶貴的參考。

        4. 結(jié)論

        這項(xiàng)研究證明了強(qiáng)化學(xué)習(xí)在提升LLM邏輯推理能力方面的巨大潛力,并為未來研究提供了諸多有價(jià)值的經(jīng)驗(yàn)和啟示。其低成本、高效率的訓(xùn)練方法,為AI在數(shù)學(xué)及其他邏輯推理領(lǐng)域的應(yīng)用開辟了新的道路。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩在线观看免费完整版视频| 国产在线播放线91免费| 免费无码又爽又刺激高潮软件| 久久午夜伦鲁片免费无码| 国产精品亚洲综合一区| 夜夜爽妓女8888视频免费观看| av在线亚洲欧洲日产一区二区| 亚洲国产亚洲片在线观看播放| 亚洲另类无码专区首页| 午夜时刻免费入口| 国产精品亚洲专区无码唯爱网 | 成人免费一级毛片在线播放视频 | 久久精品国产亚洲av麻豆色欲| 亚洲欧美日韩中文无线码| 国产亚洲精品va在线| 最近2019中文字幕免费直播| 亚洲ts人妖网站| 国产成人精品男人免费| 一级免费黄色大片| 亚洲午夜精品一区二区| 成年女人免费碰碰视频| 成人精品视频99在线观看免费| 亚洲黄色免费在线观看| 免费h成人黄漫画嘿咻破解版| 亚洲精品无码人妻无码| 亚洲一卡2卡4卡5卡6卡残暴在线| 国产高清免费观看| 免费无码又爽又刺激高潮 | 成全高清在线观看免费| 永久免费观看黄网站| 男女交性无遮挡免费视频| 亚洲视频免费在线看| 亚洲av无码成人黄网站在线观看| 一级特黄录像免费播放肥| 亚洲香蕉在线观看| 精品国产亚洲男女在线线电影 | 免费看香港一级毛片| 在线免费观看a级片| 妞干网在线免费观看| 日本特黄a级高清免费大片| 高清一区二区三区免费视频|