国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 智猩猩GenAI
561 0 0

用簡(jiǎn)潔的代碼高效復(fù)現(xiàn) R1-zero 的自發(fā)反思能力。

200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO

原標(biāo)題:200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3901字

復(fù)旦大學(xué)團(tuán)隊(duì)高效復(fù)現(xiàn)R1-zero自發(fā)反思能力:Simple-GRPO項(xiàng)目詳解

本文介紹了復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室肖仰華教授、梁家卿青年副研究員科研團(tuán)隊(duì)最新研究成果:Simple-GRPO項(xiàng)目。該項(xiàng)目以簡(jiǎn)潔的代碼高效復(fù)現(xiàn)了R1-zero的“頓悟時(shí)刻”(Aha Moment)——模型自發(fā)展現(xiàn)的自我反思和策略調(diào)整能力,并開源于Github (https://github.com/lsdefine/simple_GRPO)。

1. 背景:R1-zero復(fù)現(xiàn)的挑戰(zhàn)

DeepSeek論文中提出的R1-zero模型及其“頓悟時(shí)刻”引發(fā)了廣泛關(guān)注,許多研究者嘗試基于GRPO算法復(fù)現(xiàn)該能力。然而,現(xiàn)有復(fù)現(xiàn)項(xiàng)目存在代碼復(fù)雜、依賴性高、資源消耗大、可讀性和可維護(hù)性差等問題,阻礙了更廣泛的應(yīng)用和研究。

2. Simple-GRPO項(xiàng)目?jī)?yōu)勢(shì)

Simple-GRPO項(xiàng)目有效解決了上述問題,其主要優(yōu)勢(shì)在于:

  1. 代碼簡(jiǎn)潔:整個(gè)GRPO算法實(shí)現(xiàn)僅需200多行代碼,依賴庫(kù)僅為deepspeed和torch,無(wú)需ray等復(fù)雜框架。
  2. 資源消耗低:通過模型解耦與分離,降低了算力需求。項(xiàng)目可在單張A800 (80G)和單張3090 (24G)顯卡上完成7B模型的訓(xùn)練,顯著降低了訓(xùn)練成本(作者經(jīng)驗(yàn):?jiǎn)未螌?shí)驗(yàn)成本約合人民幣7.3元)。
  3. 高效訓(xùn)練:在該配置下,模型訓(xùn)練1小時(shí)即可出現(xiàn)“頓悟時(shí)刻”。Qwen2.5-3B訓(xùn)練60步需12分34秒,Qwen2.5-7B訓(xùn)練60步需16分40秒。

3. 技術(shù)實(shí)現(xiàn)細(xì)節(jié)

Simple-GRPO項(xiàng)目的主要技術(shù)細(xì)節(jié)包括:

  1. 參考模型分離:將參考模型解耦,允許其在不同的GPU上運(yùn)行,避免了顯存浪費(fèi),使得在A800 (80G)上訓(xùn)練7B模型成為可能。
  2. 核心損失計(jì)算:基于Hugging Face的trl庫(kù)實(shí)現(xiàn)損失計(jì)算。
  3. 訓(xùn)練環(huán)境:在一張A800 (80G)上進(jìn)行Zero-Stage 2優(yōu)化,另一張A800 (80G)用于參考模型推理。也可使用一張A800和一張3090。

4. 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,使用Qwen2.5-3B和Qwen2.5-7B作為基礎(chǔ)模型,在GSM8K和Math混合數(shù)據(jù)集上訓(xùn)練,模型的準(zhǔn)確率和格式遵循能力均達(dá)到預(yù)期效果。Qwen2.5-3B的準(zhǔn)確率在5步優(yōu)化后穩(wěn)定在60%以上,Qwen2.5-7B的準(zhǔn)確率始終保持在90%以上。

5. 未來(lái)改進(jìn)方向

該項(xiàng)目未來(lái)將著重改進(jìn)以下方面:

  1. 解決組內(nèi)答案同質(zhì)性問題:改進(jìn)獎(jiǎng)勵(lì)函數(shù),避免組內(nèi)答案過于一致導(dǎo)致模型難以收斂。
  2. 解決長(zhǎng)思維鏈顯存占用問題:通過拆分組別、減小批次大小或分階段處理長(zhǎng)序列等方法,降低GPU內(nèi)存開銷,提升訓(xùn)練效率。

總之,Simple-GRPO項(xiàng)目提供了一個(gè)簡(jiǎn)潔高效的R1-zero復(fù)現(xiàn)方案,為研究者提供了更易于訪問和使用的工具,推動(dòng)了對(duì)大模型“頓悟時(shí)刻”機(jī)制的理解和研究。


聯(lián)系作者

文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無(wú)評(píng)論

暫無(wú)評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        亚洲一区视频在线| 日本一区二区高清| 精品国产三级a在线观看| 亚洲午夜精品网| 日韩欧美综合在线| 国产精品12区| 亚洲欧美日韩人成在线播放| 欧美在线观看禁18| 久久国产麻豆精品| 亚洲国产成人午夜在线一区| 欧美在线短视频| 国内成人精品2018免费看| 中文一区二区完整视频在线观看| 91麻豆swag| 久久国产尿小便嘘嘘| 久久精品亚洲乱码伦伦中文| 色综合色综合色综合| 日本欧美在线看| 18成人在线观看| 日韩视频一区二区三区| 国产98色在线|日韩| 午夜伊人狠狠久久| 国产精品久线在线观看| 6080国产精品一区二区| fc2成人免费人成在线观看播放| 亚洲综合色婷婷| 国产欧美日韩三区| 51久久夜色精品国产麻豆| 丰满放荡岳乱妇91ww| 蜜臀精品久久久久久蜜臀| 亚洲视频在线观看三级| 久久久国际精品| 日韩一级二级三级精品视频| 在线免费精品视频| 91视频观看免费| gogo大胆日本视频一区| 国产一区二区三区电影在线观看 | 成人免费福利片| 亚洲电影一级片| 亚洲精品乱码久久久久久| 久久久久99精品国产片| 日韩精品一区二区三区蜜臀| 欧美性受极品xxxx喷水| 99久久99久久精品免费观看| 国产九色精品成人porny| 久久精品国产免费看久久精品| 亚洲最色的网站| 亚洲精品一二三| 国产精品三级电影| 久久久综合网站| 精品国产一区二区三区忘忧草 | 日韩高清不卡一区| 亚洲午夜在线视频| 亚洲午夜视频在线| 亚洲图片自拍偷拍| 亚洲sss视频在线视频| 亚洲第一激情av| 日产国产欧美视频一区精品| 日韩成人精品视频| 精品一区二区在线视频| 国产伦精品一区二区三区免费 | 久久精品国产99久久6| 捆绑变态av一区二区三区| 麻豆国产精品视频| 国产精品一区专区| 东方aⅴ免费观看久久av| 99精品视频免费在线观看| 97久久人人超碰| 色www精品视频在线观看| 91久久久免费一区二区| 欧美亚洲日本国产| 日韩精品最新网址| 久久久久成人黄色影片| 亚洲欧美影音先锋| 亚洲一区二区偷拍精品| 视频一区二区三区入口| 精品一区二区免费视频| 成人视屏免费看| 精品视频免费在线| 日韩亚洲电影在线| 国产精品人成在线观看免费| 亚洲一区二区三区四区五区中文 | 国产精品欧美一区喷水| 亚洲精品乱码久久久久久黑人| 天天色天天爱天天射综合| 免费久久99精品国产| 成人免费视频视频在线观看免费| 91丨porny丨最新| 91精品欧美福利在线观看| 国产日韩欧美综合一区| 亚洲第一搞黄网站| 高清不卡一区二区| 欧美精品日韩精品| 欧美国产综合一区二区| 天堂av在线一区| 成人蜜臀av电影| 日韩欧美一区二区视频| 1000精品久久久久久久久| 美女久久久精品| 色婷婷精品大在线视频| 精品国产123| 图片区小说区国产精品视频| 高清beeg欧美| 久久久综合网站| 三级在线观看一区二区| 97se亚洲国产综合自在线| 久久这里都是精品| 视频一区二区中文字幕| 一本大道久久a久久综合婷婷| 精品区一区二区| 婷婷久久综合九色综合伊人色| 成人午夜碰碰视频| 精品久久久久久久久久久久久久久久久| 亚洲日本在线a| 国产福利一区二区三区视频在线 | 欧美一级艳片视频免费观看| 成人欧美一区二区三区在线播放| 久久成人免费网站| 欧美日韩国产美| 亚洲欧美色图小说| 成人黄色a**站在线观看| 2019国产精品| 国产自产视频一区二区三区 | 欧美伊人久久久久久午夜久久久久| 久久精品欧美日韩精品| 国产一区二区三区免费在线观看| 欧美一区二区三区小说| 五月婷婷久久丁香| 欧美日韩国产系列| 亚洲国产成人av好男人在线观看| 91福利资源站| 一区二区三区蜜桃网| 在线观看一区二区精品视频| 亚洲蜜臀av乱码久久精品| 成人国产精品免费| 国产精品福利影院| 一本色道综合亚洲| 亚洲国产中文字幕在线视频综合| 日本丰满少妇一区二区三区| 亚洲在线免费播放| 欧美美女一区二区在线观看| 日本在线播放一区二区三区| 91精品国产综合久久精品| 秋霞电影网一区二区| 精品黑人一区二区三区久久| 国产一区二区三区精品视频| 国产丝袜美腿一区二区三区| 成人av电影在线观看| 亚洲欧美日韩在线播放| 欧美日韩一区不卡| 蓝色福利精品导航| 国产精品无圣光一区二区| 色呦呦日韩精品| 日本vs亚洲vs韩国一区三区二区 | 欧美欧美欧美欧美| 久久99热狠狠色一区二区| 欧美激情一区二区在线| 欧美影院午夜播放| 精品一区二区三区不卡 | 国产精品乱码一区二区三区软件| 成人激情文学综合网| 亚洲国产中文字幕在线视频综合| 日韩欧美另类在线| 成人av先锋影音| 秋霞电影一区二区| 中文字幕在线观看一区| 欧美一区三区四区| 99久久免费视频.com| 日韩不卡在线观看日韩不卡视频| 中文字幕 久热精品 视频在线| 欧美三级韩国三级日本三斤| 国产曰批免费观看久久久| 亚洲午夜免费电影| 国产日本一区二区| 欧美肥大bbwbbw高潮| 成人app软件下载大全免费| 三级欧美韩日大片在线看| 国产精品久久久久久久蜜臀| 欧美电影一区二区三区| 成人黄页在线观看| 激情亚洲综合在线| 亚洲超碰97人人做人人爱| 国产精品久久一级| 久久综合久久综合久久综合| 欧美高清性hdvideosex| 91浏览器在线视频| 福利电影一区二区| 老司机午夜精品| 视频一区中文字幕| 一区二区三区高清不卡| 中日韩av电影| 久久久久99精品一区| 欧美一区二区在线播放| 欧美无乱码久久久免费午夜一区| 丁香六月久久综合狠狠色| 青青草91视频| 免费精品99久久国产综合精品| 亚洲bt欧美bt精品777| 亚洲精品福利视频网站| 中文字幕亚洲在|