<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        張俊林:Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立?

        AIGC動(dòng)態(tài)6個(gè)月前發(fā)布 智猩猩GenAI
        533 0 0

        總之,一切責(zé)任在馬斯克,Over。

        張俊林:Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立?

        原標(biāo)題:張俊林:Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立?
        文章來(lái)源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):6654字

        DeepSeek與Grok 3:大模型Scaling Law的

        本文探討了近期圍繞大模型Scaling Law的爭(zhēng)議,特別是DeepSeek和Grok 3的案例,分析了預(yù)訓(xùn)練、RL和測(cè)試時(shí)間三種Scaling方法的性價(jià)比,并對(duì)Grok 3的巨大算力消耗提出了可能的解釋。

        1. 預(yù)訓(xùn)練階段的Scaling Law

        1.1 預(yù)訓(xùn)練階段的Scaling Law仍然成立,但當(dāng)數(shù)據(jù)量達(dá)到瓶頸時(shí),提升效果的性價(jià)比會(huì)顯著降低。這時(shí),增加模型尺寸雖然能提升效果,但成本過(guò)高。

        1.2 提升模型效果的Scaling方法性價(jià)比排序:Test time Scaling Law > RL Scaling Law > 預(yù)訓(xùn)練階段Scaling Law。只有在沒(méi)有更高性價(jià)比方法時(shí),才會(huì)選擇預(yù)訓(xùn)練階段增加模型尺寸。

        1.3 擁有更多GPU算力能加快實(shí)驗(yàn)速度,提升創(chuàng)新效率,但并非訓(xùn)練最佳模型的必要條件。

        2. Grok 3基座模型

        2.1 Grok 3的評(píng)測(cè)指標(biāo)僅限于數(shù)學(xué)、科學(xué)和代碼數(shù)據(jù)集,缺乏通用能力(如MMLU)的對(duì)比,這可能暗示其通用能力提升有限。

        2.2 提升基座模型在數(shù)學(xué)和代碼方面的能力,可以通過(guò)從高級(jí)模型(如DeepSeek R1)蒸餾深度思考過(guò)程數(shù)據(jù)(長(zhǎng)COT數(shù)據(jù))來(lái)實(shí)現(xiàn),成本相對(duì)較低。

        2.3 Grok 3的算力消耗是Grok 2的10倍,這可能是由于大幅增加了訓(xùn)練數(shù)據(jù)量(例如,增加了大量多模態(tài)數(shù)據(jù))或大幅增加了模型尺寸。

        2.4 Grok 3可能采取了增加模型尺寸的“傳統(tǒng)”方法來(lái)提升基座模型能力,這種方法性價(jià)比低。

        3. Grok 3邏輯推理版本

        3.1 Grok 3的深度思考版本(對(duì)標(biāo)DeepSeek R1)在評(píng)測(cè)指標(biāo)上達(dá)到了領(lǐng)先水平。

        3.2 Grok 3可能通過(guò)加大基座模型尺寸來(lái)提升RL階段Scaling的效果,從而提升深度思考版本的能力,即使這種做法性價(jià)比不高。

        3.3 DeepSeek R1基座模型過(guò)大,部署困難,這可能也是因?yàn)榛P统叽绮蛔銜?huì)影響深度思考模型效果。

        3.4 三種Scaling Law的性價(jià)比排序:Test Time > RL > Pre-Train。但如果基座模型尺寸會(huì)影響RL和Test Time Scaling 的天花板,則可能需要先提升Pre-Train階段的模型尺寸,再進(jìn)一步提升RL和Test Time Scaling。

        3.5 上述推論的前提是Grok 3的巨大算力消耗是經(jīng)過(guò)深思熟慮的決策,而非僅僅基于舊觀念。

        總而言之,文章認(rèn)為預(yù)訓(xùn)練階段的Scaling Law仍然有效,但性價(jià)比已不再是最佳選擇。RL和測(cè)試時(shí)間Scaling更具性價(jià)比,但它們的提升可能受限于基座模型的尺寸。Grok 3的大規(guī)模算力消耗可能源于其對(duì)基座模型尺寸與RL階段Scaling效果之間正相關(guān)關(guān)系的依賴。


        聯(lián)系作者

        文章來(lái)源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 色天使亚洲综合一区二区| 午夜网站免费版在线观看| 亚洲一区爱区精品无码| 一区二区免费视频| 亚洲永久无码3D动漫一区| 国产免费播放一区二区| 亚洲人AV永久一区二区三区久久| 美女羞羞免费视频网站| 免费人成网站7777视频| 四虎永久在线精品免费一区二区| avtt亚洲天堂| aa级女人大片喷水视频免费| 国产成人A亚洲精V品无码 | 亚洲日韩在线中文字幕综合| 免费看a级黄色片| 美女免费视频一区二区三区| 亚洲伊人成无码综合网 | 免费大黄网站在线观| 三级片免费观看久久| 相泽亚洲一区中文字幕| 青青操在线免费观看| 青青操免费在线视频| 亚洲第一福利视频| 99久久99热精品免费观看国产| 亚洲欧洲日产国码www| 男人的好看免费观看在线视频| 亚洲另类无码专区首页| 亚洲爽爽一区二区三区| 免费A级毛片无码视频| 亚洲中文字幕日本无线码| 国产片免费福利片永久| 色www永久免费网站| 亚洲成a人片在线网站| 四虎永久精品免费观看| 手机看片国产免费永久| 99999久久久久久亚洲| 亚洲日本va午夜中文字幕久久| 一级毛片免费播放| 国产精品亚洲一区二区三区久久 | 亚洲国产成人VA在线观看| 久久青草免费91观看|