国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

北交開源o1代碼版!強(qiáng)化學(xué)習(xí)+蒙特卡洛樹搜索,源代碼、精選數(shù)據(jù)集以及衍生模型通通開源

AIGC動態(tài)11個月前發(fā)布 量子位
334 0 0

西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI北京交通大學(xué)研究團(tuán)隊悄默聲推出了一版o1,而且所有源代碼、精選數(shù)據(jù)集以及衍生模型都開源!名為O1-CODER,專注于編碼任務(wù)。團(tuán)隊認(rèn)為編碼是一個需要System-2思維方式的典型任務(wù),涉及謹(jǐn)慎、邏輯、一步步的問題解決過程。而他們的策略是將強(qiáng)化學(xué)習(xí)(RL)與蒙特卡洛樹搜索(MCTS)相結(jié)合,讓模型能夠不斷生成推理數(shù)據(jù),提升其System-2能力。實驗中,團(tuán)隊有以下幾點(diǎn)關(guān)鍵發(fā)現(xiàn):當(dāng)推理正確時,基于偽代碼的推理顯著提升了代碼生成質(zhì)量將監(jiān)督微調(diào)(SFT)與直接偏好優(yōu)化(DPO)相結(jié)合能夠提升測試用例生成效果自我對弈強(qiáng)化學(xué)習(xí)為推理和代碼生成創(chuàng)造了持續(xù)改進(jìn)的循環(huán)機(jī)制具體來說,團(tuán)隊采用了測試用例生成器,在經(jīng)過DPO后達(dá)到89.2%的通過率,相比初始微調(diào)后的80.8%有顯著提升;Qwen2.5-Coder-7B采用偽代碼方法實現(xiàn)了74.9%的平均采樣通過率,提升了25.6%。網(wǎng)友直呼很需要這樣的模型。O1-CODER,究竟長啥樣?六步,逐步優(yōu)化o1應(yīng)用于代碼生成的自我對弈強(qiáng)化學(xué)習(xí)面臨兩大挑戰(zhàn):結(jié)果評估,即如何評判生成代碼的質(zhì)量。與圍棋等任務(wù)不同,評估代碼需要在測試環(huán)境中運(yùn)行并驗證。定義思考和搜索行為,即確定過程獎勵的對象和粒度。對于第一個挑戰(zhàn),團(tuán)隊提出訓(xùn)練一個測試用例生成器(TCG),根據(jù)問題和標(biāo)準(zhǔn)代碼自動生成測試用例,為強(qiáng)化學(xué)習(xí)提供標(biāo)準(zhǔn)化的代碼測試環(huán)境和結(jié)果獎勵。對于第二個挑戰(zhàn),他們采取”先思考后行動“的方式:先通過詳細(xì)的偽代碼思考問題,再基于偽代碼生成最終的可執(zhí)行代碼。這種方式的優(yōu)勢在于適應(yīng)性(同一偽代碼可對應(yīng)不同的具體實現(xiàn))和可控粒度(通過調(diào)整偽代碼的細(xì)節(jié)程度控制推理/搜索行為的粒度)。具體來說,研究團(tuán)隊提出了一個包含六個步驟的框架:訓(xùn)練測試用例生成器(TCG),為代碼測試提供標(biāo)準(zhǔn)化的環(huán)境利用MCTS生成包含推理過程的代碼數(shù)據(jù)迭代微調(diào)策略模型,先生成偽代碼,再生成完整代碼基于推理過程數(shù)據(jù)初始化過程獎勵模型(PRM)在TCG提供的結(jié)果獎勵和PRM提供的過程獎勵的雙重引導(dǎo)下,通過強(qiáng)化學(xué)習(xí)和MCTS更新策略模型利用優(yōu)化后的策略模型生成新的推理數(shù)據(jù),返回第4步迭代訓(xùn)練兩階段訓(xùn)練測試用例生成器在實驗部分,研究人員詳細(xì)介紹了測試用例生成器的訓(xùn)練過程。分為兩個階段:監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。SFT階段的主要目標(biāo)是確保生成器的輸出符合預(yù)定義格式,以便準(zhǔn)確解析和提取生成的測試用例。訓(xùn)練數(shù)據(jù)來自TACO數(shù)據(jù)集。DPO階段的目標(biāo)是引導(dǎo)模型生成符合特定偏好的測試用例,進(jìn)一步提高生成器的性能和可靠性。這里采用了帶有人工構(gòu)建樣本對的DPO方法,構(gòu)建了一個偏好數(shù)據(jù)集。實驗表明,SFT階段過后,TCG在標(biāo)準(zhǔn)代碼上生成的測試用例通過率達(dá)到80.8%,DPO階段進(jìn)一步提升至89.2%,大幅改善了生成器產(chǎn)出可靠測試用例的能力。偽代碼推理,引導(dǎo)模型進(jìn)行深度推理特別值得一提的是,研究者引入了基于偽代碼的提示方法,將其作為引導(dǎo)模型進(jìn)行深度推理的“認(rèn)知工具”。他們?yōu)榇硕x了三個關(guān)鍵行為:使用偽代碼定義算法結(jié)構(gòu):勾勒主要函數(shù)的結(jié)構(gòu)和接口,把握任務(wù)的整體框架細(xì)化偽代碼:逐步明確每個函數(shù)的具體步驟、邏輯和操作從偽代碼生成代碼:將偽代碼的結(jié)構(gòu)和邏輯精準(zhǔn)翻譯為可執(zhí)行代碼在MBPP數(shù)據(jù)集上進(jìn)行的初步實驗表明,盡管整體通過率(Pass@1)有所下降,但Average Sampling Pass Rate(ASPR)顯著提高。表明結(jié)合偽代碼顯著改善了推理過程的質(zhì)量,特別是在細(xì)化通向正確輸出的路徑方面。這為后續(xù)的自監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)提供了良好的起點(diǎn)。自我對弈+強(qiáng)化學(xué)習(xí)研究人員詳細(xì)描述了如何使用蒙特卡洛樹搜索(MCTS)來構(gòu)建步驟級別的過程獎勵數(shù)據(jù)。這個過程涉及到為每個問題形成一個推理路徑,該路徑由一系列推理步驟組成,并最終產(chǎn)生一個可執(zhí)行的代碼。在MCTS的路徑探索中,使用偽代碼提示策略來引導(dǎo)推理過程。當(dāng)達(dá)到終端節(jié)點(diǎn)時,就形成了一個完整的偽代碼推理路徑。終端節(jié)點(diǎn)的獎勵值是基于兩個關(guān)鍵指標(biāo)計算的:編譯成功率(compile)和測試用例通過率(pass)。這些指標(biāo)被用來評估生成的代碼的質(zhì)量和正確性。獎勵值被反向傳播到路徑上的所有前序節(jié)點(diǎn),為每個步驟分配一個獎勵值。通過這種方式,構(gòu)建了推理過程數(shù)據(jù)集,為策略模型的初始化和訓(xùn)練提供了基礎(chǔ)。過程獎勵模型(PRM)的任務(wù)是為當(dāng)前步驟分配一個獎勵值,以估計其對最終答案的貢獻(xiàn)。在數(shù)據(jù)合成過程中使用的樹搜索方法可以組織成點(diǎn)式(point-wise)和成對式(pair-wise)兩種數(shù)據(jù)格式。基于這些經(jīng)過驗證的正確推理解,策略模型得到初始化。接下來,過程獎勵模型(PRM)開始發(fā)揮作用,評估每一步推理對最終答案的貢獻(xiàn)。在測試用例生成器(TCG)提供的結(jié)果獎勵和PRM提供的過程獎勵的雙重引導(dǎo)下,策略模型通過強(qiáng)化學(xué)習(xí)不斷改進(jìn)。更新后的策略模型被用來生成新的推理數(shù)據(jù),補(bǔ)充到現(xiàn)有數(shù)據(jù)集中,形成自我對弈的閉環(huán)。這個數(shù)據(jù)生成-獎勵建模-策略優(yōu)化的迭代循環(huán),確保了系統(tǒng)推理能力的持續(xù)提升。論文鏈接:https://arxiv.org/pdf/2412.00154參考鏈接:https://x.com/rohanpaul_ai/status/1864488583744377271?s=46&t=iTysI4vQLQqCNJjSmBODPw— 完 —MEET2025大會在即倒計時一周 ? 歡迎報名?一年一度的科技頂流盛會就要來了!??兩場GenAI Talk,一場具身智能圓桌,直指時下熱門議題!工業(yè)界學(xué)術(shù)界頂流大咖齊聚,還有兩份關(guān)鍵參考「年度AI趨勢報告」、「2024人工智能年度評選」榜單即將發(fā)布!了解詳情?點(diǎn)擊報名參會,12月11日,期待與您一起預(yù)見智能科技新未來!左右滑動查看最新嘉賓陣容點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~一鍵三連「點(diǎn)贊」、「分享」和「在看」科技前沿進(jìn)展日日相見 ~

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        精品久久久久久久久久久院品网| 亚洲高清免费在线| 久久众筹精品私拍模特| 日韩激情一区二区| 9191国产精品| 国产一区二区不卡在线| 国产日韩欧美一区二区三区乱码 | 欧美日韩一区二区三区四区 | 亚洲国产电影在线观看| 丁香激情综合国产| 中文字幕一区在线| 精品视频免费看| 久久国产麻豆精品| 国产午夜精品福利| 欧美探花视频资源| 韩国三级在线一区| 亚洲精品国产高清久久伦理二区| 91精品啪在线观看国产60岁| 国产精品乡下勾搭老头1| 一区二区在线电影| 精品国产91乱码一区二区三区| 国产乱国产乱300精品| 亚洲精品五月天| 久久综合狠狠综合| 欧美色综合网站| 国产成人综合在线播放| 亚洲一区二区三区国产| 久久综合久久综合九色| 91福利视频久久久久| 另类的小说在线视频另类成人小视频在线| 久久精品亚洲国产奇米99| 欧洲色大大久久| 国产精品伊人色| 日本视频一区二区三区| 亚洲女与黑人做爰| 国产精品欧美综合在线| 4hu四虎永久在线影院成人| 成人免费电影视频| 精品一区二区三区免费观看| 亚洲一区二区三区视频在线| 国产精品全国免费观看高清| 精品成人佐山爱一区二区| 欧美亚洲动漫另类| 成人app在线| 国产乱妇无码大片在线观看| 捆绑调教一区二区三区| 亚洲成人tv网| 伊人婷婷欧美激情| 自拍偷拍国产精品| 中文字幕精品一区二区三区精品| 日韩一区二区三区电影在线观看 | 欧美精彩视频一区二区三区| 欧美一级久久久| 欧美午夜影院一区| 在线观看视频91| 欧洲精品一区二区三区在线观看| av亚洲精华国产精华| 懂色av一区二区夜夜嗨| 国产激情91久久精品导航| 九一久久久久久| 久久99精品久久久| 精品亚洲aⅴ乱码一区二区三区| 亚洲成av人片一区二区三区| 亚洲成人av一区二区| 亚洲成人第一页| 免费欧美日韩国产三级电影| 久久国产乱子精品免费女| 韩国视频一区二区| 国产成人精品三级| 91在线视频观看| 欧美色大人视频| 91精品蜜臀在线一区尤物| 日韩亚洲欧美在线观看| 久久一留热品黄| 中文字幕第一区第二区| 亚洲人成人一区二区在线观看| 亚洲精品乱码久久久久久久久 | 无码av中文一区二区三区桃花岛| 亚洲国产精品欧美一二99| 视频一区在线视频| 国产麻豆精品在线观看| 99久久国产综合精品色伊| 欧美视频你懂的| 日韩你懂的在线观看| 国产欧美精品在线观看| 亚洲综合丁香婷婷六月香| 免费成人你懂的| 成人美女在线视频| 欧美精品在线观看播放| 国产亚洲一区二区三区四区| 一区二区三区四区av| 蜜臀av一区二区| 成年人网站91| 欧美精品高清视频| 国产精品人妖ts系列视频| 亚洲成年人影院| 国产成人午夜99999| 欧美中文字幕一区二区三区亚洲| 日韩精品影音先锋| 亚洲精品免费在线| 国产91精品一区二区| 欧美日韩一二区| 国产精品人人做人人爽人人添| 亚洲成年人网站在线观看| 成人小视频免费观看| 3atv在线一区二区三区| 亚洲欧洲日产国产综合网| 久久爱www久久做| 欧美三区免费完整视频在线观看| 国产欧美精品国产国产专区| 三级一区在线视频先锋| 91在线porny国产在线看| 欧美v国产在线一区二区三区| 亚洲猫色日本管| 国产91精品一区二区麻豆网站| 日韩欧美中文字幕精品| 亚洲第一成人在线| 91蝌蚪porny成人天涯| 日本一区二区三区久久久久久久久不 | 亚洲不卡av一区二区三区| 久久精品72免费观看| 欧美日韩在线精品一区二区三区激情| 国产三级三级三级精品8ⅰ区| 日本va欧美va精品发布| 欧美日韩在线一区二区| 一区二区激情视频| 91蜜桃免费观看视频| 国产精品成人免费在线| 高清不卡在线观看av| 久久精品一区二区三区av| 精品一区精品二区高清| 日韩亚洲欧美成人一区| 日本怡春院一区二区| 欧美高清视频www夜色资源网| 亚洲男人的天堂在线观看| 成人aaaa免费全部观看| 18成人在线视频| 9l国产精品久久久久麻豆| 中文字幕在线视频一区| 99综合电影在线视频| 亚洲桃色在线一区| 色婷婷av一区二区三区gif| 亚洲欧美日本韩国| 91国产丝袜在线播放| 亚洲国产视频一区二区| 欧美一区二区视频在线观看2022| 午夜在线成人av| 日韩欧美电影一区| 国产成人精品亚洲午夜麻豆| 亚洲欧洲日韩av| 欧美日本视频在线| 麻豆国产欧美一区二区三区| 久久久蜜桃精品| 一本色道亚洲精品aⅴ| 日韩精品国产精品| 精品国产91九色蝌蚪| av在线不卡电影| 日韩精品乱码免费| 国产日韩欧美制服另类| 色婷婷综合久久久中文一区二区| 亚洲第一狼人社区| 国产免费久久精品| 欧美亚洲尤物久久| 国产一区二区三区黄视频 | 亚洲自拍另类综合| 日韩一二在线观看| 波多野结衣在线aⅴ中文字幕不卡| 亚洲一区二区三区美女| 国产欧美精品区一区二区三区| 欧美影院午夜播放| 国产综合久久久久影院| 亚洲一区二区在线观看视频| 久久老女人爱爱| 欧美丝袜丝交足nylons图片| 国产成人综合亚洲91猫咪| 午夜电影一区二区三区| 欧美激情综合在线| 91精品国产综合久久福利| 丁香五精品蜜臀久久久久99网站 | 亚洲欧洲精品一区二区三区| 欧美高清一级片在线| 色综合天天天天做夜夜夜夜做| 国产综合成人久久大片91| 亚洲大尺度视频在线观看| 国产女主播视频一区二区| 日韩西西人体444www| 欧美综合一区二区三区| 国产suv一区二区三区88区| 日本成人在线网站| 亚洲欧美另类图片小说| 国产欧美视频一区二区| 日韩免费高清视频| 欧美一二三在线| 精品视频在线免费看| 日本乱人伦aⅴ精品| eeuss影院一区二区三区| 国产一区二区三区蝌蚪| 日本欧美一区二区三区| 亚洲h在线观看| 亚洲成人动漫在线免费观看|