国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Ilya錯了,預訓練沒結束!LeCun等反擊,「小模型時代」讓奧特曼預言成真

AIGC動態10個月前發布 新智元
514 0 0

新智元報道編輯:編輯部 HZj【新智元導讀】Ilya「預訓練結束了」一出,圈內嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說:預訓練還沒結束!Scaling Law真的崩了嗎?Epoch AI發布報告稱,我們已經進入「小模型」周期,但下一代依然會更大。最近,Ilya在NeurIPS 2024中宣布:預訓練結束了!瞬間一石激起千層浪。在他看來,數據如同化石燃料般難以再生,因此訓練模型需要的海量數據即將枯竭。作為前OpenAI首席科學家,Ilya的這番話,有可能影響之后數十年的AI發展方向。不過,預訓練真的結束了嗎?最近,幾位圈內大佬,就公開站出來質疑和反對Ilya了。谷歌大佬Logan Kilpatrick是這樣內涵Ilya的:認為預訓練結束,恐怕是因為你缺乏想象力。前Meta具身智能團隊的高級總監Dhruv Batra也站出來共同表示:Ilya錯了!在他看來,人類的數據還沒有用完。我們只是用完了人類書寫的文本而已,但我們擁有的視頻數量,依然遠超我們的處理能力,目前只是尚未解決視覺領域的預訓練問題罷了。的確,要知道,網絡上的文本公共數據,畢竟只是冰山一角而已。我們除了文本,還能對音頻、視頻、圖像進行預訓練,甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。而如果模型真的可以學習的話,那數據或許確實是無所不在。 左右滑動查看有人則充分放分想象:如果預訓練能和生物相連,那它的確永遠不會結束。Scaling Law和預訓練到底有沒有撞墻?種種表明,我們已經站在了一個發展路線的分水嶺。Ilya、LeCun甚至奧特曼,都已經感覺到:目前的發展路線不能再延續下去了,我們亟需探索新的出路。早期,Ilya曾是暴力Scaling的早期倡導者之一,認為通過增加數據和算力來「scale up」,能顯著改善模型性能。但現在,Ilya已經承認自己曾經的想法錯了,并透露SSI正在研究一種全新的替代方法,來擴展預訓練。相較之下,外媒SemiAnalysis則在一篇關于o1的深度報道中指出——scale的維度遠不止預訓練,Scaling Law仍將繼續下去。最近,Epoch AI研究員的一篇長文,更是直觀地展示了這個「矛盾」的現象。從2017年Transformer架構誕生到GPT-4發布,SOTA模型的規模一直在變大,但增幅在變小。從GPT-1到GPT-3,用了2年時間,模型參數量從1.17億增加到1750億,增加了1000倍從GPT-3到GPT-4,用了2年9個月,模型參數量從1750億增加到1.8萬億,增加了10倍而到了2023年,這一趨勢直接發生了逆轉。據估計,當前SOTA模型的參數可能要比GPT-4的1.8萬億小一個數量級!GPT-4o大約為2000億參數Claude 3.5 Sonnet約為4000億參數但有趣的是,下一代模型的規模,可能又會重新超過GPT-4。當今SOTA模型最大只有約4000億參數盡管許多實驗室沒有公開模型架構,Epoch AI的研究員依然從蛛絲馬跡中發現了線索。首先是開源模型的證據。根據Artificial Analysis的模型質量指數,當前最佳的開源模型是Mistral Large 2和Llama 3.3,分別擁有1230億和700億參數。這些稠密模型,架構與GPT-3相似,但參數更少。它們總體的基準表現超過了GPT-4和Claude 3 Opus,且由于參數更少,它們的推理成本和速度也更優。對于閉源模型,盡管我們通常無法得知參數詳情,但可以根據推理速度和收費推測它們的大小。僅考慮短上下文請求,OpenAI提供的2024年11月版本GPT-4o,每個用戶每秒100-150個輸出token,收費每百萬輸出token 10美元;而GPT-4 Turbo每秒最多大約55個輸出token,費用是每百萬輸出token 30美元。顯然,GPT-4o比GPT-4 Turbo更便宜且更快,因此它的參數可能比GPT-4小得多。另外,我們還可以使用推理經濟學的理論模型,來預測GPT-4在H200上進行推理的成本。假設使用H200進行推理的機會成本為每小時3美元,下面的圖顯示了不同價格點下,GPT-4及其假設縮小版的生成速度??傮w來說,為了讓模型每秒生成100個以上的token并且能夠流暢服務,模型需要比GPT-4小得多。根據上圖,假設OpenAI的價格加成大約是GPU成本的八分之一,GPT-4o的參數量可能在2000億左右,雖然這個估計可能有2倍的誤差。有證據表明,Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token,每百萬輸出token收費15美元。這速度在優化設置下接近原版GPT-4的收支平衡點。不過,考慮到Anthropic API可能加價不少,Sonnet參數規模仍顯著小于GPT-4,估計在4000億左右??傮w來看,當前前沿模型的參數大多在4000億左右,像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。雖然對于閉源模型的參數估計有很大的不確定性,但我們仍然可以推測,從GPT-4和Claude 3 Opus到如今最強的模型,規模縮小的幅度可能接近一個數量級。為什么會這樣?針對這一現象,Epoch AI認為有四個主要原因:1. AI需求爆發,模型不得不瘦身自ChatGPT和GPT-4發布以來,AI產品需求激增,服務商面臨的推理請求大大超出預期。此前,從2020年到2023年3月,模型訓練的目標是最小化訓練計算量,即在固定的能力水平下,花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議,隨著訓練計算量的增加,模型規模也應擴大。隨著推理成本占據支出的大頭,傳統法則的適用性受到了挑戰。相比scaling模型規模,在更多訓練數據(token)上訓練較小的模型反而更劃算,因為較小的模型在推理階段的計算需求較低,能夠以更低的成本服務用戶。比如,從Llama 2 70B到Llama 3 70B,雖然模型參數規模沒有顯著增加,但模型的性能卻顯著提升。這是因為通過過度訓練(在更多數據上訓練較小的模型),可以讓模型在保持小規模的同時,表現得更強大。2.蒸餾,讓小模型更能打實驗室還采用了「蒸餾」方法,從而讓更小的模型表現得更強大。蒸餾指的是讓小模型模仿已經訓練好的大模型的性能。蒸餾方法有很多種,其中一種簡單的方法是使用大模型生成高質量的合成數據集來訓練小模型,而更復雜的方法則需要訪問大模型的內部信息(如隱藏狀態和logprobs)。Epoch AI認為,GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。3. Scaling Law的轉變Kaplan Scaling Law(2020)建議,模型的參數量與訓練用的token數量(即數據量)應保持較高的比例。簡單來說,當你增加訓練數據時,應該相應增加模型的規模(參數量)而Chinchilla Scaling Law(2022)則偏向于更多訓練數據和更少的參數。模型不必越來越大,關鍵在于訓練數據的規模和多樣性。這個轉變導致了訓練方式的改變:模型變得更小,但訓練數據更多。從Kaplan到Chinchilla的轉變,并非因為推理需求的增加,而是我們對如何有效scaling預訓練的理解發生了變化。4. 推理更快,模型更小隨著推理方法的改進,模型生成token的效率和低延遲變得更加重要。過去,判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。然而,當模型在生成每個輸出token時需要先推理出多個token時(比如每個輸出token對應10個推理token),提升生成效率就變得更關鍵。這推動了實驗室,像OpenAI,專注于優化推理過程,使得模型在處理復雜推理任務時能夠更高效運行,也因此促使它們縮小模型的規模。5. 用AI喂AI,成本更低越來越多的實驗室開始采用合成數據作為訓練數據來源,這也是促使模型變小的原因之一。合成數據為訓練計算scaling提供了一種新的途徑,超越了傳統的增加模型參數量和訓練數據集大小的方法(即,超越預訓練計算scaling)。我們可以生成將來用于訓練的token,而不是從互聯網上抓取它們,就像AlphaGo通過自我對弈生成訓練數據一樣。這樣,我們可以保持Chinchilla Scaling Law下計算最優的token與參數比例,但通過生成數據時為每個token投入更多計算,從而增加訓練計算量而不增加模型大小。奧特曼:參數規模競賽即將終結?2023年4月,OpenAI發布了當時最強的,同時也是第一款未公開參量的模型GPT-4。之后不久,CEO奧特曼曾預言了模型參數競賽的終結:圍繞模型參數量的競賽,就像歷史上對更高處理器主頻的追求,是一個死胡同。那么,前沿模型的規模會不會越變越小呢?簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內變得比GPT-4更大。從Kaplan到Chinchilla的轉變是一次性的,因此我們沒有理由期待它繼續讓模型變小。GPT-4發布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數據和scaling計算并非每個實驗室都在采納——即使有高質量的訓練數據,對于非常小的模型而言,能夠取得的成就可能非常有限。此外,硬件的進步可能會促使更大的模型變得更優,因為在相同預算下,大模型通常表現更好。較小的模型在推理時可能表現更差,尤其在長上下文和復雜任務上。未來的模型(如GPT-5或Claude 4)可能會恢復或稍微超過GPT-4的規模,之后是否繼續縮小規模難以預料。理論上,當前硬件足以支持比GPT-4大50倍、約100萬億參數的模型,可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。但正如Karpathy所說,相比于如今這種只能根據prompt去解決博士級別問題的AI,一個能夠真正作為「實習生」入職的AI更為實用。參考資料:https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smallerhttps://x.com/OfficialLoganK/status/1868002617311596552https://x.com/DhruvBatraDB/status/1868009853324865762https://x.com/karpathy/status/1868061331355840704

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        国产伦精品一区二区三区免费迷 | 精品999久久久| 亚洲精品中文字幕在线观看| 成人一二三区视频| 国产精品美女久久久久aⅴ| 99精品国产91久久久久久| 成人欧美一区二区三区| 色av成人天堂桃色av| 亚洲线精品一区二区三区| 欧美精品久久一区二区三区| 蜜臀91精品一区二区三区| 精品盗摄一区二区三区| 欧美一级专区免费大片| 国产在线观看一区二区| 亚洲欧洲日韩一区二区三区| 欧美亚洲国产一区二区三区| 美女精品一区二区| 国产精品久久久久久久久快鸭| 欧美亚男人的天堂| 国产精品综合二区| 亚洲最新视频在线播放| 精品国产网站在线观看| 成人高清av在线| 午夜成人免费视频| 国产精品久久久久久福利一牛影视| 欧美色区777第一页| 国产精品自拍毛片| 婷婷久久综合九色国产成人| 国产精品激情偷乱一区二区∴| 欧美日韩国产小视频| 丰满放荡岳乱妇91ww| 日本不卡免费在线视频| 亚洲免费观看高清| 久久美女高清视频| 欧美一级电影网站| 在线观看国产一区二区| 国产成人综合精品三级| 日产国产高清一区二区三区| 亚洲精品亚洲人成人网在线播放| 久久久久久免费毛片精品| 欧美天天综合网| 91老司机福利 在线| 丰满少妇在线播放bd日韩电影| 激情另类小说区图片区视频区| 亚洲成va人在线观看| 亚洲乱码一区二区三区在线观看| 欧美高清在线一区| 国产视频亚洲色图| 久久综合狠狠综合久久激情| 日韩一级完整毛片| 69久久99精品久久久久婷婷| 在线欧美日韩精品| 一本一道久久a久久精品综合蜜臀| 国产高清在线精品| 国产成人精品一区二| 国产在线看一区| 国产尤物一区二区| 国产在线精品一区二区三区不卡 | 首页国产欧美日韩丝袜| 亚洲黄色av一区| 亚洲精品免费电影| 一区二区三区久久| 亚洲动漫第一页| 亚洲成人综合在线| 五月婷婷久久综合| 日韩精品一卡二卡三卡四卡无卡| 亚洲福利视频一区二区| 日韩av不卡在线观看| 日韩激情一区二区| 国内精品久久久久影院一蜜桃| 加勒比av一区二区| 国产91精品在线观看| 99久久久久久| 欧美唯美清纯偷拍| 欧美大胆一级视频| 国产精品视频看| 夜夜精品浪潮av一区二区三区| 亚洲成人中文在线| 国内一区二区在线| 91麻豆免费在线观看| 欧美猛男gaygay网站| 精品国产一区二区精华| 国产精品情趣视频| 亚洲福利视频一区| 国产一区日韩二区欧美三区| 成人国产免费视频| 91精品在线免费| 久久久久久久久久久久久久久99| 成人欧美一区二区三区1314 | 成人av电影在线| 精品污污网站免费看| 久久亚洲综合av| 亚洲卡通欧美制服中文| 激情深爱一区二区| 欧美少妇一区二区| 久久久国产一区二区三区四区小说 | 激情伊人五月天久久综合| www..com久久爱| 日韩一区二区在线播放| 中文字幕一区二区三区精华液| 亚洲国产一区二区在线播放| 国产麻豆精品视频| 在线播放中文字幕一区| 国产精品毛片高清在线完整版| 亚洲v中文字幕| 成人国产一区二区三区精品| 日韩精品在线一区二区| 亚洲影视在线播放| 成人av在线资源网| 久久男人中文字幕资源站| 亚洲电影激情视频网站| 色香蕉久久蜜桃| 国产精品污网站| 韩国在线一区二区| 91麻豆精品国产91久久久 | 亚洲国产精品精华液网站| 成人精品高清在线| 欧美精品一区二区高清在线观看| 亚洲成a人片综合在线| 一本色道久久综合亚洲aⅴ蜜桃| 久久久久久久国产精品影院| 日韩高清一级片| 欧美日韩中字一区| 亚洲福利一区二区三区| 欧美三级电影网站| 一区二区三区四区五区视频在线观看| 国产精品一区二区在线观看网站| 日韩三级精品电影久久久| 天天av天天翘天天综合网 | 国产欧美一区二区精品秋霞影院| 人禽交欧美网站| 日韩三级在线观看| 青青草国产精品97视觉盛宴| 欧美二区乱c少妇| 亚洲不卡一区二区三区| 欧美日韩一区二区三区高清| 亚洲一区在线视频观看| 欧美日韩精品欧美日韩精品| 亚洲电影第三页| 日韩欧美国产综合| 国产一区二区电影| 国产欧美日韩精品在线| 99麻豆久久久国产精品免费 | 性久久久久久久久久久久| 欧美日韩小视频| 日本aⅴ精品一区二区三区 | 日韩精品视频网| 欧美一二三区精品| 精品一区二区三区视频| 久久久噜噜噜久久人人看| 成人激情图片网| 亚洲男人的天堂一区二区| 欧美日韩另类一区| 美日韩一区二区三区| 国产亚洲精品超碰| 在线观看欧美精品| 日本视频中文字幕一区二区三区| 久久综合色鬼综合色| 91网站在线观看视频| 天使萌一区二区三区免费观看| 日韩一二三区视频| 成人毛片老司机大片| 午夜精品福利久久久| 久久久噜噜噜久噜久久综合| 色老头久久综合| 精品在线免费观看| 亚洲精品国产a| 日韩精品一区二区三区在线观看 | 国产精品乡下勾搭老头1| 亚洲精品一二三| 26uuu色噜噜精品一区二区| 91浏览器在线视频| 国产在线播放一区三区四| 亚洲国产成人高清精品| 国产欧美视频在线观看| 欧美日韩国产综合一区二区三区| 国产剧情一区二区三区| 香蕉影视欧美成人| 国产精品久久久久精k8 | 亚洲国产日韩一区二区| 国产日韩精品一区二区三区| 欧美三级一区二区| 国产激情精品久久久第一区二区| 亚洲国产成人av网| 亚洲免费在线电影| 国产欧美综合在线观看第十页 | 久久亚洲春色中文字幕久久久| 91免费视频观看| 国产精品一区二区久久不卡| 视频一区在线视频| 亚洲精品中文字幕在线观看| 国产精品―色哟哟| 久久久91精品国产一区二区精品| 欧美精品亚洲一区二区在线播放| av电影一区二区| 成人福利视频网站| 国产69精品久久99不卡| 精品一区二区三区久久| 日韩精品一级二级| 欧美aa在线视频|