<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        成本不到150元!李飛飛等26分鐘訓(xùn)出個推理模型,媲美o1和R1,秘訣:用蒸餾

        AIGC動態(tài)7個月前發(fā)布 量子位
        282 0 0

        已在GitHub開源

        成本不到150元!李飛飛等26分鐘訓(xùn)出個推理模型,媲美o1和R1,秘訣:用蒸餾

        原標(biāo)題:成本不到150元!李飛飛等26分鐘訓(xùn)出個推理模型,媲美o1和R1,秘訣:用蒸餾
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):5587字

        斯坦福團(tuán)隊(duì)僅用150元訓(xùn)練出媲美OpenAI o1的推理模型s1

        近日,來自斯坦福大學(xué)、華盛頓大學(xué)、艾倫人工智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員,在AI教母李飛飛的帶領(lǐng)下,推出了一款名為s1的推理模型,其性能可與OpenAI o1和DeepSeek-R1相媲美,然而訓(xùn)練成本卻低至150元人民幣左右。這一突破性成果引發(fā)了廣泛關(guān)注,其核心在于巧妙地運(yùn)用模型蒸餾技術(shù)。

        1. s1模型的低成本訓(xùn)練秘訣:模型蒸餾

        s1團(tuán)隊(duì)利用阿里通義團(tuán)隊(duì)的Qwen2.5-32B-Instruct作為基礎(chǔ)模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實(shí)驗(yàn)版,最終得到了s1模型。整個訓(xùn)練過程僅需16個英偉達(dá)H100,耗時26分鐘,云計(jì)算成本不到50美元。這種極低的成本得益于模型蒸餾技術(shù),它能夠?qū)⒋笮湍P偷闹R遷移到較小的模型中,從而降低訓(xùn)練成本和計(jì)算資源需求。

        2. 精心設(shè)計(jì)的數(shù)據(jù)集s1K

        為了訓(xùn)練s1,研究團(tuán)隊(duì)創(chuàng)建了一個包含1000個精心挑選問題的s1K數(shù)據(jù)集。這些問題涵蓋數(shù)學(xué)、科學(xué)等多個領(lǐng)域,并附有答案以及Gemini 2.0 Flash Thinking實(shí)驗(yàn)版的思考過程。數(shù)據(jù)集的篩選過程嚴(yán)格遵循質(zhì)量、難度和多樣性原則,確保數(shù)據(jù)的有效性和代表性。

        3. 創(chuàng)新的順序Scaling方法:budget forcing

        s1團(tuán)隊(duì)專注于Test-time Scaling的順序Scaling方法,并提出了一種名為“budget forcing”的解碼時間干預(yù)方法。該方法通過添加“end-of-thinking token分隔符”和“Final Answer”來控制模型思考token的數(shù)量上限,并通過禁止生成“end-of-thinking token分隔符”和添加“wait”詞來控制下限,從而引導(dǎo)模型進(jìn)行更深入的推理和迭代細(xì)化。 研究還對比了其他方法,例如條件長度控制方法和拒絕抽樣,最終證明budget forcing在控制、縮放和性能指標(biāo)上表現(xiàn)最佳。

        4. s1模型的性能表現(xiàn)

        在AIME24、MATH500和GPQA Diamond三個推理基準(zhǔn)測試中,s1-32B的表現(xiàn)與OpenAI o1和DeepSeek-R1不相上下,尤其在MATH500上取得了93.0的優(yōu)異成績。研究發(fā)現(xiàn),雖然budget forcing可以提高模型性能,但過度抑制思考會導(dǎo)致模型陷入死循環(huán)。s1模型的樣本效率極高,僅用1000個樣本訓(xùn)練就達(dá)到了接近Gemini 2.0 Thinking的性能。

        5. 研究結(jié)論與未來展望

        s1模型的成功證明了模型蒸餾和Test-time Scaling的巨大潛力,為構(gòu)建高性能、低成本的推理模型提供了新的思路。該研究也揭示了頻繁抑制思考可能導(dǎo)致模型陷入死循環(huán)的問題。未來,研究團(tuán)隊(duì)將繼續(xù)探索更有效的Test-time Scaling方法,推動大模型技術(shù)的進(jìn)一步發(fā)展。 s1模型的開源也為學(xué)術(shù)界和工業(yè)界提供了寶貴的資源。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品无码成人片久久| 日韩一级免费视频| 1区2区3区产品乱码免费| 91免费国产在线观看| 国产精品酒店视频免费看| 久久夜色精品国产嚕嚕亚洲av| 日韩黄色免费观看| 亚洲丁香婷婷综合久久| a级毛片毛片免费观看久潮| 最近中文字幕无免费| 亚洲AV无码之日韩精品| 亚洲视频一区二区三区| 亚洲AV永久无码精品放毛片| 久久久久久免费一区二区三区| 天天天欲色欲色WWW免费| 亚洲色欲久久久综合网东京热| 亚洲成A人片在线播放器| baoyu116.永久免费视频| 亚洲AV无码成人网站久久精品大| 日韩免费高清大片在线| 亚洲 综合 国产 欧洲 丝袜 | a级精品九九九大片免费看| 亚洲韩国—中文字幕| 特级一级毛片免费看| 国产妇乱子伦视频免费| 亚洲成熟丰满熟妇高潮XXXXX| 免费播放特黄特色毛片| 亚洲欧美熟妇综合久久久久 | 毛片免费视频播放| 亚洲精品国产高清不卡在线| 亚洲欧美日韩久久精品| 亚洲成a人一区二区三区| 久久精品私人影院免费看| 亚洲乱码中文字幕综合| 97在线视频免费播放| 亚洲av日韩aⅴ无码色老头| 亚洲区小说区激情区图片区| 国产免费av片在线看| 成人国产精品免费视频| 丝袜熟女国偷自产中文字幕亚洲| 一个人免费观看日本www视频|