国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

AIGC動態8個月前發布 機器之心
521 0 0

在完全未見過的美國數學奧林匹克(AIME)測試中,該模型的推理性能提升了125%!

僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

原標題:僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini
文章來源:機器之心
內容字數:6931字

DeepSeek R1:僅用5000條合成數據,大幅提升AI數學競賽水平

機器之心AIxiv專欄報道了微軟亞洲研究院、九坤投資和研究員合作完成的一項最新研究,該研究揭秘了DeepSeek R1模型如何通過低成本強化學習,在邏輯推理測試中取得顯著突破。該研究論文題為《Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning》,已發布在arXiv上。

1. 研究目標及方法

該研究旨在探究強化學習在提升大型語言模型 (LLM) 邏輯推理能力中的有效性,并解答一系列關鍵問題,例如:最佳強化學習算法選擇、冷啟動與基于基礎模型啟動的差異、模型輸出長度與推理能力的關系、特定詞匯與推理能力的關聯,以及強化學習與監督微調的優劣比較等。

研究團隊采用完全由程序合成的邏輯謎題作為訓練數據,這些謎題具有難度可控、答案明確等優點,有效避免了自然語言任務中常見的模糊性。他們設計了一個基于規則的獎勵系統,幾乎杜絕了模型作弊行為,并通過 REINFORCE++ 算法進行訓練。

2. 關鍵發現

研究發現,僅需5000條合成邏輯謎題,7B參數規模的小模型就能在邏輯推理測試中超越OpenAI o1,逼近o3-mini-high的性能。在未見過的美國數學奧林匹克(AIME)測試中,推理性能提升了125%。

一些有趣的發現包括:

  1. 詞匯與推理能力: 諸如“verify”、“check”等反思性詞匯的出現與推理性能提升相關,但并非所有此類詞匯都具有積極作用。“recheck”反而可能表明模型猶豫不決,增加錯誤概率。
  2. 語言混雜: 中英夾雜會降低模型性能,建議在獎勵系統中加入語言一致性懲罰。
  3. “頓悟時刻”: 研究并未發現模型訓練過程中存在突如其來的“Aha moment”,與反思相關的詞匯在訓練初期就已經出現,只是頻率較低。
  4. 強化學習vs.監督微調: 強化學習在不依賴數據結構的情況下,以極低的數據代價實現了高效進化,展現出強大的泛化性,優于監督微調。
  5. 輸出長度與性能: 模型輸出長度的增加并不一定代表推理性能的提升,過長的輸出反而可能導致“過度思考”和錯誤。

3. 代碼和數據開源

該團隊完整開源了全流程代碼、參數設置、訓練數據和設計經驗,為后續研究提供了寶貴的參考。

4. 結論

這項研究證明了強化學習在提升LLM邏輯推理能力方面的巨大潛力,并為未來研究提供了諸多有價值的經驗和啟示。其低成本、高效率的訓練方法,為AI在數學及其他邏輯推理領域的應用開辟了新的道路。


聯系作者

文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        日韩av中文字幕一区二区三区| 欧美成人性战久久| 欧美日韩成人综合在线一区二区| 亚洲素人一区二区| jlzzjlzz欧美大全| 一区二区三区日韩| 欧美日韩国产一二三| 日本中文字幕不卡| 久久久精品免费网站| 成人午夜电影久久影院| 亚洲国产综合91精品麻豆| 欧美三级电影网| 久久99精品国产麻豆婷婷| 亚洲国产成人自拍| 欧美乱妇20p| 国产精品系列在线观看| 亚洲欧美区自拍先锋| 日韩视频免费观看高清完整版在线观看| 久久国产剧场电影| 亚洲日本在线a| 日韩一级完整毛片| 高清在线成人网| 日本成人在线一区| 亚洲欧洲99久久| 精品国精品国产| 欧美三区在线观看| 成人精品视频一区二区三区 | 欧美日韩一卡二卡| 国产99久久久精品| 天堂影院一区二区| 国产精品成人免费精品自在线观看| 欧美私人免费视频| heyzo一本久久综合| 蜜臀av一区二区在线观看| 亚洲欧美一区二区三区久本道91| 精品久久国产老人久久综合| 欧美专区日韩专区| 91蜜桃在线观看| 国产成人精品影院| 裸体健美xxxx欧美裸体表演| 亚洲一区在线观看免费观看电影高清| 欧美videos大乳护士334| 欧美日韩国产一级二级| 99精品久久99久久久久| 成人在线视频一区二区| 久久99精品网久久| 久久不见久久见免费视频7| 日韩精品乱码av一区二区| 亚洲一区二区精品久久av| 国产精品久久久久久久久久免费看| 日韩精品一区在线| 日韩一级大片在线观看| 91精品国产入口| 欧美一区二区国产| 日韩视频永久免费| 日韩欧美国产高清| 91麻豆精品国产91久久久久久| 91福利资源站| 欧美色区777第一页| 欧美日韩精品一区二区三区蜜桃 | 91麻豆精品国产91久久久更新时间| 色哟哟一区二区在线观看| 成人午夜视频在线观看| 成人免费不卡视频| 91蜜桃免费观看视频| 日本高清无吗v一区| 欧美日韩一区三区四区| 欧美日韩免费观看一区二区三区 | 欧美高清视频www夜色资源网| 欧美午夜电影一区| 欧美一区二区三区系列电影| 日韩一区二区三| 国产色产综合色产在线视频| 亚洲欧洲精品成人久久奇米网| 亚洲天堂2014| 午夜精品aaa| 久久国产尿小便嘘嘘尿| 风间由美一区二区av101| 99久久久久久| 欧美精品高清视频| 国产色产综合产在线视频| 亚洲图片激情小说| 日韩精品每日更新| 国产69精品一区二区亚洲孕妇| 99久久777色| 日韩欧美在线一区二区三区| 欧美激情中文字幕一区二区| 一区二区三区在线观看国产| 免费三级欧美电影| 99久久精品一区二区| 日韩免费看的电影| 综合婷婷亚洲小说| 麻豆视频观看网址久久| 国产suv精品一区二区6| 欧美伦理电影网| 中文字幕一区二区三区在线不卡| 婷婷综合五月天| 大美女一区二区三区| 欧美久久久久久蜜桃| 欧美激情资源网| 日本美女一区二区| 91香蕉视频污| 久久综合av免费| 日韩成人一区二区三区在线观看| av中文字幕不卡| 26uuu亚洲综合色欧美| 亚洲一级二级三级| 成人激情开心网| 久久久影视传媒| 蜜臀久久99精品久久久久宅男| 91蜜桃传媒精品久久久一区二区| 精品99久久久久久| 性做久久久久久久免费看| 成人黄色综合网站| 久久天堂av综合合色蜜桃网| 天堂va蜜桃一区二区三区| 99精品视频在线免费观看| 国产亚洲一区二区三区| 手机精品视频在线观看| 欧美日韩一区成人| 亚洲高清中文字幕| 欧美日韩在线电影| 亚洲综合在线免费观看| 91麻豆视频网站| 成人欧美一区二区三区白人| 成人av影院在线| 欧美激情中文字幕一区二区| 国产乱码精品一区二区三区av| 欧美岛国在线观看| 精品一区二区三区久久| 欧美大片国产精品| 国产激情一区二区三区| 久久久影视传媒| 国产传媒一区在线| 国产精品网站导航| 成人免费视频国产在线观看| 久久精品亚洲一区二区三区浴池| 精品一区二区三区视频在线观看 | 欧美电影免费观看高清完整版在 | 久久九九影视网| 国产精品自拍三区| 国产精品蜜臀在线观看| 色激情天天射综合网| 夜夜操天天操亚洲| 制服.丝袜.亚洲.另类.中文| 老汉av免费一区二区三区| 26uuu久久综合| 成人精品免费网站| 国产精品久久网站| 在线亚洲一区二区| 免费观看日韩av| 国产欧美一区二区三区鸳鸯浴| 成人激情免费网站| 亚洲精品国产视频| 69久久99精品久久久久婷婷 | 亚洲欧洲制服丝袜| 欧美美女一区二区在线观看| 裸体一区二区三区| 国产精品久久久久永久免费观看 | 午夜精品久久久久久久99水蜜桃| 91精品国产91久久久久久一区二区| 久久精品久久综合| 国产精品二三区| 在线不卡中文字幕| 成人av网站在线观看免费| 亚洲国产欧美在线| 国产片一区二区| 5858s免费视频成人| 床上的激情91.| 午夜精品爽啪视频| 中文字幕一区二区三区不卡在线| 欧美理论片在线| 成人手机在线视频| 日本不卡一区二区| 亚洲欧美成人一区二区三区| 日韩欧美在线1卡| 色嗨嗨av一区二区三区| 国产夫妻精品视频| 全国精品久久少妇| 亚洲福利一区二区三区| 久久精品视频在线免费观看| 欧美日韩一区二区在线视频| 国产aⅴ综合色| 精品一区二区三区欧美| 日韩一区欧美二区| 一区二区三区欧美久久| 国产精品三级在线观看| 日韩天堂在线观看| 欧美美女网站色| 在线亚洲精品福利网址导航| 岛国精品一区二区| 国产盗摄女厕一区二区三区| 日本午夜精品视频在线观看| 一区二区三区四区在线免费观看| 久久久久国产免费免费| 日韩欧美在线123| 欧美肥妇bbw| 欧美日韩高清一区二区三区| 91久久精品一区二区二区| 99免费精品在线|