張俊林:Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立?
總之,一切責(zé)任在馬斯克,Over。
原標(biāo)題:張俊林:Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立?
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):6654字
DeepSeek與Grok 3:大模型Scaling Law的
本文探討了近期圍繞大模型Scaling Law的爭(zhēng)議,特別是DeepSeek和Grok 3的案例,分析了預(yù)訓(xùn)練、RL和測(cè)試時(shí)間三種Scaling方法的性價(jià)比,并對(duì)Grok 3的巨大算力消耗提出了可能的解釋。
1. 預(yù)訓(xùn)練階段的Scaling Law
1.1 預(yù)訓(xùn)練階段的Scaling Law仍然成立,但當(dāng)數(shù)據(jù)量達(dá)到瓶頸時(shí),提升效果的性價(jià)比會(huì)顯著降低。這時(shí),增加模型尺寸雖然能提升效果,但成本過(guò)高。
1.2 提升模型效果的Scaling方法性價(jià)比排序:Test time Scaling Law > RL Scaling Law > 預(yù)訓(xùn)練階段Scaling Law。只有在沒(méi)有更高性價(jià)比方法時(shí),才會(huì)選擇預(yù)訓(xùn)練階段增加模型尺寸。
1.3 擁有更多GPU算力能加快實(shí)驗(yàn)速度,提升創(chuàng)新效率,但并非訓(xùn)練最佳模型的必要條件。
2. Grok 3基座模型
2.1 Grok 3的評(píng)測(cè)指標(biāo)僅限于數(shù)學(xué)、科學(xué)和代碼數(shù)據(jù)集,缺乏通用能力(如MMLU)的對(duì)比,這可能暗示其通用能力提升有限。
2.2 提升基座模型在數(shù)學(xué)和代碼方面的能力,可以通過(guò)從高級(jí)模型(如DeepSeek R1)蒸餾深度思考過(guò)程數(shù)據(jù)(長(zhǎng)COT數(shù)據(jù))來(lái)實(shí)現(xiàn),成本相對(duì)較低。
2.3 Grok 3的算力消耗是Grok 2的10倍,這可能是由于大幅增加了訓(xùn)練數(shù)據(jù)量(例如,增加了大量多模態(tài)數(shù)據(jù))或大幅增加了模型尺寸。
2.4 Grok 3可能采取了增加模型尺寸的“傳統(tǒng)”方法來(lái)提升基座模型能力,這種方法性價(jià)比低。
3. Grok 3邏輯推理版本
3.1 Grok 3的深度思考版本(對(duì)標(biāo)DeepSeek R1)在評(píng)測(cè)指標(biāo)上達(dá)到了領(lǐng)先水平。
3.2 Grok 3可能通過(guò)加大基座模型尺寸來(lái)提升RL階段Scaling的效果,從而提升深度思考版本的能力,即使這種做法性價(jià)比不高。
3.3 DeepSeek R1基座模型過(guò)大,部署困難,這可能也是因?yàn)榛P统叽绮蛔銜?huì)影響深度思考模型效果。
3.4 三種Scaling Law的性價(jià)比排序:Test Time > RL > Pre-Train。但如果基座模型尺寸會(huì)影響RL和Test Time Scaling 的天花板,則可能需要先提升Pre-Train階段的模型尺寸,再進(jìn)一步提升RL和Test Time Scaling。
3.5 上述推論的前提是Grok 3的巨大算力消耗是經(jīng)過(guò)深思熟慮的決策,而非僅僅基于舊觀念。
總而言之,文章認(rèn)為預(yù)訓(xùn)練階段的Scaling Law仍然有效,但性價(jià)比已不再是最佳選擇。RL和測(cè)試時(shí)間Scaling更具性價(jià)比,但它們的提升可能受限于基座模型的尺寸。Grok 3的大規(guī)模算力消耗可能源于其對(duì)基座模型尺寸與RL階段Scaling效果之間正相關(guān)關(guān)系的依賴。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。