Ilya錯了，預訓練沒結束！LeCun等反擊，「小模型時代」讓奧特曼預言成真

AIGC動態(tài)1年前 (2024)發(fā)布新智元

新智元報道編輯：編輯部 HZj【新智元導讀】Ilya「預訓練結束了」一出，圈內(nèi)嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說：預訓練還沒結束！Scaling Law真的崩了嗎？Epoch AI發(fā)布報告稱，我們已經(jīng)進入「小模型」周期，但下一代依然會更大。最近，Ilya在NeurIPS 2024中宣布：預訓練結束了！瞬間一石激起千層浪。在他看來，數(shù)據(jù)如同化石燃料般難以再生，因此訓練模型需要的海量數(shù)據(jù)即將枯竭。作為前OpenAI首席科學家，Ilya的這番話，有可能影響之后數(shù)十年的AI發(fā)展方向。不過，預訓練真的結束了嗎？最近，幾位圈內(nèi)大佬，就公開站出來質(zhì)疑和反對Ilya了。谷歌大佬Logan Kilpatrick是這樣內(nèi)涵Ilya的：認為預訓練結束，恐怕是因為你缺乏想象力。前Meta具身智能團隊的高級總監(jiān)Dhruv Batra也站出來共同表示：Ilya錯了！在他看來，人類的數(shù)據(jù)還沒有用完。我們只是用完了人類書寫的文本而已，但我們擁有的視頻數(shù)量，依然遠超我們的處理能力，目前只是尚未解決視覺領域的預訓練問題罷了。的確，要知道，網(wǎng)絡上的文本公共數(shù)據(jù)，畢竟只是冰山一角而已。我們除了文本，還能對音頻、視頻、圖像進行預訓練，甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。而如果模型真的可以學習的話，那數(shù)據(jù)或許確實是無所不在。左右滑動查看有人則充分放分想象：如果預訓練能和生物相連，那它的確永遠不會結束。Scaling Law和預訓練到底有沒有撞墻？種種表明，我們已經(jīng)站在了一個發(fā)展路線的分水嶺。Ilya、LeCun甚至奧特曼，都已經(jīng)感覺到：目前的發(fā)展路線不能再延續(xù)下去了，我們亟需探索新的出路。早期，Ilya曾是暴力Scaling的早期倡導者之一，認為通過增加數(shù)據(jù)和算力來「scale up」，能顯著改善模型性能。但現(xiàn)在，Ilya已經(jīng)承認自己曾經(jīng)的想法錯了，并透露SSI正在研究一種全新的替代方法，來擴展預訓練。相較之下，外媒SemiAnalysis則在一篇關于o1的深度報道中指出——scale的維度遠不止預訓練，Scaling Law仍將繼續(xù)下去。最近，Epoch AI研究員的一篇長文，更是直觀地展示了這個「矛盾」的現(xiàn)象。從2017年Transformer架構誕生到GPT-4發(fā)布，SOTA模型的規(guī)模一直在變大，但增幅在變小。從GPT-1到GPT-3，用了2年時間，模型參數(shù)量從1.17億增加到1750億，增加了1000倍從GPT-3到GPT-4，用了2年9個月，模型參數(shù)量從1750億增加到1.8萬億，增加了10倍而到了2023年，這一趨勢直接發(fā)生了逆轉。據(jù)估計，當前SOTA模型的參數(shù)可能要比GPT-4的1.8萬億小一個數(shù)量級！GPT-4o大約為2000億參數(shù)Claude 3.5 Sonnet約為4000億參數(shù)但有趣的是，下一代模型的規(guī)模，可能又會重新超過GPT-4。當今SOTA模型最大只有約4000億參數(shù)盡管許多實驗室沒有公開模型架構，Epoch AI的研究員依然從蛛絲馬跡中發(fā)現(xiàn)了線索。首先是開源模型的證據(jù)。根據(jù)Artificial Analysis的模型質(zhì)量指數(shù)，當前最佳的開源模型是Mistral Large 2和Llama 3.3，分別擁有1230億和700億參數(shù)。這些稠密模型，架構與GPT-3相似，但參數(shù)更少。它們總體的基準表現(xiàn)超過了GPT-4和Claude 3 Opus，且由于參數(shù)更少，它們的推理成本和速度也更優(yōu)。對于閉源模型，盡管我們通常無法得知參數(shù)詳情，但可以根據(jù)推理速度和收費推測它們的大小。僅考慮短上下文請求，OpenAI提供的2024年11月版本GPT-4o，每個用戶每秒100-150個輸出token，收費每百萬輸出token 10美元；而GPT-4 Turbo每秒最多大約55個輸出token，費用是每百萬輸出token 30美元。顯然，GPT-4o比GPT-4 Turbo更便宜且更快，因此它的參數(shù)可能比GPT-4小得多。另外，我們還可以使用推理經(jīng)濟學的理論模型，來預測GPT-4在H200上進行推理的成本。假設使用H200進行推理的機會成本為每小時3美元，下面的圖顯示了不同價格點下，GPT-4及其假設縮小版的生成速度。總體來說，為了讓模型每秒生成100個以上的token并且能夠流暢服務，模型需要比GPT-4小得多。根據(jù)上圖，假設OpenAI的價格加成大約是GPU成本的八分之一，GPT-4o的參數(shù)量可能在2000億左右，雖然這個估計可能有2倍的誤差。有證據(jù)表明，Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token，每百萬輸出token收費15美元。這速度在優(yōu)化設置下接近原版GPT-4的收支平衡點。不過，考慮到Anthropic API可能加價不少，Sonnet參數(shù)規(guī)模仍顯著小于GPT-4，估計在4000億左右。總體來看，當前前沿模型的參數(shù)大多在4000億左右，像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。雖然對于閉源模型的參數(shù)估計有很大的不確定性，但我們?nèi)匀豢梢酝茰y，從GPT-4和Claude 3 Opus到如今最強的模型，規(guī)模縮小的幅度可能接近一個數(shù)量級。為什么會這樣？針對這一現(xiàn)象，Epoch AI認為有四個主要原因：1. AI需求爆發(fā)，模型不得不瘦身自ChatGPT和GPT-4發(fā)布以來，AI產(chǎn)品需求激增，服務商面臨的推理請求大大超出預期。此前，從2020年到2023年3月，模型訓練的目標是最小化訓練計算量，即在固定的能力水平下，花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議，隨著訓練計算量的增加，模型規(guī)模也應擴大。隨著推理成本占據(jù)支出的大頭，傳統(tǒng)法則的適用性受到了挑戰(zhàn)。相比scaling模型規(guī)模，在更多訓練數(shù)據(jù)（token）上訓練較小的模型反而更劃算，因為較小的模型在推理階段的計算需求較低，能夠以更低的成本服務用戶。比如，從Llama 2 70B到Llama 3 70B，雖然模型參數(shù)規(guī)模沒有顯著增加，但模型的性能卻顯著提升。這是因為通過過度訓練（在更多數(shù)據(jù)上訓練較小的模型），可以讓模型在保持小規(guī)模的同時，表現(xiàn)得更強大。2.蒸餾，讓小模型更能打?qū)嶒炇疫€采用了「蒸餾」方法，從而讓更小的模型表現(xiàn)得更強大。蒸餾指的是讓小模型模仿已經(jīng)訓練好的大模型的性能。蒸餾方法有很多種，其中一種簡單的方法是使用大模型生成高質(zhì)量的合成數(shù)據(jù)集來訓練小模型，而更復雜的方法則需要訪問大模型的內(nèi)部信息（如隱藏狀態(tài)和logprobs）。Epoch AI認為，GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。3. Scaling Law的轉變Kaplan Scaling Law（2020）建議，模型的參數(shù)量與訓練用的token數(shù)量（即數(shù)據(jù)量）應保持較高的比例。簡單來說，當你增加訓練數(shù)據(jù)時，應該相應增加模型的規(guī)模（參數(shù)量）而Chinchilla Scaling Law（2022）則偏向于更多訓練數(shù)據(jù)和更少的參數(shù)。模型不必越來越大，關鍵在于訓練數(shù)據(jù)的規(guī)模和多樣性。這個轉變導致了訓練方式的改變：模型變得更小，但訓練數(shù)據(jù)更多。從Kaplan到Chinchilla的轉變，并非因為推理需求的增加，而是我們對如何有效scaling預訓練的理解發(fā)生了變化。4. 推理更快，模型更小隨著推理方法的改進，模型生成token的效率和低延遲變得更加重要。過去，判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。然而，當模型在生成每個輸出token時需要先推理出多個token時（比如每個輸出token對應10個推理token），提升生成效率就變得更關鍵。這推動了實驗室，像OpenAI，專注于優(yōu)化推理過程，使得模型在處理復雜推理任務時能夠更高效運行，也因此促使它們縮小模型的規(guī)模。5. 用AI喂AI，成本更低越來越多的實驗室開始采用合成數(shù)據(jù)作為訓練數(shù)據(jù)來源，這也是促使模型變小的原因之一。合成數(shù)據(jù)為訓練計算scaling提供了一種新的途徑，超越了傳統(tǒng)的增加模型參數(shù)量和訓練數(shù)據(jù)集大小的方法（即，超越預訓練計算scaling）。我們可以生成將來用于訓練的token，而不是從互聯(lián)網(wǎng)上抓取它們，就像AlphaGo通過自我對弈生成訓練數(shù)據(jù)一樣。這樣，我們可以保持Chinchilla Scaling Law下計算最優(yōu)的token與參數(shù)比例，但通過生成數(shù)據(jù)時為每個token投入更多計算，從而增加訓練計算量而不增加模型大小。奧特曼：參數(shù)規(guī)模競賽即將終結？2023年4月，OpenAI發(fā)布了當時最強的，同時也是第一款未公開參量的模型GPT-4。之后不久，CEO奧特曼曾預言了模型參數(shù)競賽的終結：圍繞模型參數(shù)量的競賽，就像歷史上對更高處理器主頻的追求，是一個死胡同。那么，前沿模型的規(guī)模會不會越變越小呢？簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內(nèi)變得比GPT-4更大。從Kaplan到Chinchilla的轉變是一次性的，因此我們沒有理由期待它繼續(xù)讓模型變小。GPT-4發(fā)布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數(shù)據(jù)和scaling計算并非每個實驗室都在采納——即使有高質(zhì)量的訓練數(shù)據(jù)，對于非常小的模型而言，能夠取得的成就可能非常有限。此外，硬件的進步可能會促使更大的模型變得更優(yōu)，因為在相同預算下，大模型通常表現(xiàn)更好。較小的模型在推理時可能表現(xiàn)更差，尤其在長上下文和復雜任務上。未來的模型（如GPT-5或Claude 4）可能會恢復或稍微超過GPT-4的規(guī)模，之后是否繼續(xù)縮小規(guī)模難以預料。理論上，當前硬件足以支持比GPT-4大50倍、約100萬億參數(shù)的模型，可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。但正如Karpathy所說，相比于如今這種只能根據(jù)prompt去解決博士級別問題的AI，一個能夠真正作為「實習生」入職的AI更為實用。參考資料：https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smallerhttps://x.com/OfficialLoganK/status/1868002617311596552https://x.com/DhruvBatraDB/status/1868009853324865762https://x.com/karpathy/status/1868061331355840704

閱讀原文