国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Ilya錯了,預訓練沒結束!LeCun等反擊,「小模型時代」讓奧特曼預言成真

AIGC動態10個月前發布 新智元
514 0 0

新智元報道編輯:編輯部 HZj【新智元導讀】Ilya「預訓練結束了」一出,圈內嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說:預訓練還沒結束!Scaling Law真的崩了嗎?Epoch AI發布報告稱,我們已經進入「小模型」周期,但下一代依然會更大。最近,Ilya在NeurIPS 2024中宣布:預訓練結束了!瞬間一石激起千層浪。在他看來,數據如同化石燃料般難以再生,因此訓練模型需要的海量數據即將枯竭。作為前OpenAI首席科學家,Ilya的這番話,有可能影響之后數十年的AI發展方向。不過,預訓練真的結束了嗎?最近,幾位圈內大佬,就公開站出來質疑和反對Ilya了。谷歌大佬Logan Kilpatrick是這樣內涵Ilya的:認為預訓練結束,恐怕是因為你缺乏想象力。前Meta具身智能團隊的高級總監Dhruv Batra也站出來共同表示:Ilya錯了!在他看來,人類的數據還沒有用完。我們只是用完了人類書寫的文本而已,但我們擁有的視頻數量,依然遠超我們的處理能力,目前只是尚未解決視覺領域的預訓練問題罷了。的確,要知道,網絡上的文本公共數據,畢竟只是冰山一角而已。我們除了文本,還能對音頻、視頻、圖像進行預訓練,甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。而如果模型真的可以學習的話,那數據或許確實是無所不在。 左右滑動查看有人則充分放分想象:如果預訓練能和生物相連,那它的確永遠不會結束。Scaling Law和預訓練到底有沒有撞墻?種種表明,我們已經站在了一個發展路線的分水嶺。Ilya、LeCun甚至奧特曼,都已經感覺到:目前的發展路線不能再延續下去了,我們亟需探索新的出路。早期,Ilya曾是暴力Scaling的早期倡導者之一,認為通過增加數據和算力來「scale up」,能顯著改善模型性能。但現在,Ilya已經承認自己曾經的想法錯了,并透露SSI正在研究一種全新的替代方法,來擴展預訓練。相較之下,外媒SemiAnalysis則在一篇關于o1的深度報道中指出——scale的維度遠不止預訓練,Scaling Law仍將繼續下去。最近,Epoch AI研究員的一篇長文,更是直觀地展示了這個「矛盾」的現象。從2017年Transformer架構誕生到GPT-4發布,SOTA模型的規模一直在變大,但增幅在變小。從GPT-1到GPT-3,用了2年時間,模型參數量從1.17億增加到1750億,增加了1000倍從GPT-3到GPT-4,用了2年9個月,模型參數量從1750億增加到1.8萬億,增加了10倍而到了2023年,這一趨勢直接發生了逆轉。據估計,當前SOTA模型的參數可能要比GPT-4的1.8萬億小一個數量級!GPT-4o大約為2000億參數Claude 3.5 Sonnet約為4000億參數但有趣的是,下一代模型的規模,可能又會重新超過GPT-4。當今SOTA模型最大只有約4000億參數盡管許多實驗室沒有公開模型架構,Epoch AI的研究員依然從蛛絲馬跡中發現了線索。首先是開源模型的證據。根據Artificial Analysis的模型質量指數,當前最佳的開源模型是Mistral Large 2和Llama 3.3,分別擁有1230億和700億參數。這些稠密模型,架構與GPT-3相似,但參數更少。它們總體的基準表現超過了GPT-4和Claude 3 Opus,且由于參數更少,它們的推理成本和速度也更優。對于閉源模型,盡管我們通常無法得知參數詳情,但可以根據推理速度和收費推測它們的大小。僅考慮短上下文請求,OpenAI提供的2024年11月版本GPT-4o,每個用戶每秒100-150個輸出token,收費每百萬輸出token 10美元;而GPT-4 Turbo每秒最多大約55個輸出token,費用是每百萬輸出token 30美元。顯然,GPT-4o比GPT-4 Turbo更便宜且更快,因此它的參數可能比GPT-4小得多。另外,我們還可以使用推理經濟學的理論模型,來預測GPT-4在H200上進行推理的成本。假設使用H200進行推理的機會成本為每小時3美元,下面的圖顯示了不同價格點下,GPT-4及其假設縮小版的生成速度??傮w來說,為了讓模型每秒生成100個以上的token并且能夠流暢服務,模型需要比GPT-4小得多。根據上圖,假設OpenAI的價格加成大約是GPU成本的八分之一,GPT-4o的參數量可能在2000億左右,雖然這個估計可能有2倍的誤差。有證據表明,Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token,每百萬輸出token收費15美元。這速度在優化設置下接近原版GPT-4的收支平衡點。不過,考慮到Anthropic API可能加價不少,Sonnet參數規模仍顯著小于GPT-4,估計在4000億左右??傮w來看,當前前沿模型的參數大多在4000億左右,像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。雖然對于閉源模型的參數估計有很大的不確定性,但我們仍然可以推測,從GPT-4和Claude 3 Opus到如今最強的模型,規模縮小的幅度可能接近一個數量級。為什么會這樣?針對這一現象,Epoch AI認為有四個主要原因:1. AI需求爆發,模型不得不瘦身自ChatGPT和GPT-4發布以來,AI產品需求激增,服務商面臨的推理請求大大超出預期。此前,從2020年到2023年3月,模型訓練的目標是最小化訓練計算量,即在固定的能力水平下,花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議,隨著訓練計算量的增加,模型規模也應擴大。隨著推理成本占據支出的大頭,傳統法則的適用性受到了挑戰。相比scaling模型規模,在更多訓練數據(token)上訓練較小的模型反而更劃算,因為較小的模型在推理階段的計算需求較低,能夠以更低的成本服務用戶。比如,從Llama 2 70B到Llama 3 70B,雖然模型參數規模沒有顯著增加,但模型的性能卻顯著提升。這是因為通過過度訓練(在更多數據上訓練較小的模型),可以讓模型在保持小規模的同時,表現得更強大。2.蒸餾,讓小模型更能打實驗室還采用了「蒸餾」方法,從而讓更小的模型表現得更強大。蒸餾指的是讓小模型模仿已經訓練好的大模型的性能。蒸餾方法有很多種,其中一種簡單的方法是使用大模型生成高質量的合成數據集來訓練小模型,而更復雜的方法則需要訪問大模型的內部信息(如隱藏狀態和logprobs)。Epoch AI認為,GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。3. Scaling Law的轉變Kaplan Scaling Law(2020)建議,模型的參數量與訓練用的token數量(即數據量)應保持較高的比例。簡單來說,當你增加訓練數據時,應該相應增加模型的規模(參數量)而Chinchilla Scaling Law(2022)則偏向于更多訓練數據和更少的參數。模型不必越來越大,關鍵在于訓練數據的規模和多樣性。這個轉變導致了訓練方式的改變:模型變得更小,但訓練數據更多。從Kaplan到Chinchilla的轉變,并非因為推理需求的增加,而是我們對如何有效scaling預訓練的理解發生了變化。4. 推理更快,模型更小隨著推理方法的改進,模型生成token的效率和低延遲變得更加重要。過去,判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。然而,當模型在生成每個輸出token時需要先推理出多個token時(比如每個輸出token對應10個推理token),提升生成效率就變得更關鍵。這推動了實驗室,像OpenAI,專注于優化推理過程,使得模型在處理復雜推理任務時能夠更高效運行,也因此促使它們縮小模型的規模。5. 用AI喂AI,成本更低越來越多的實驗室開始采用合成數據作為訓練數據來源,這也是促使模型變小的原因之一。合成數據為訓練計算scaling提供了一種新的途徑,超越了傳統的增加模型參數量和訓練數據集大小的方法(即,超越預訓練計算scaling)。我們可以生成將來用于訓練的token,而不是從互聯網上抓取它們,就像AlphaGo通過自我對弈生成訓練數據一樣。這樣,我們可以保持Chinchilla Scaling Law下計算最優的token與參數比例,但通過生成數據時為每個token投入更多計算,從而增加訓練計算量而不增加模型大小。奧特曼:參數規模競賽即將終結?2023年4月,OpenAI發布了當時最強的,同時也是第一款未公開參量的模型GPT-4。之后不久,CEO奧特曼曾預言了模型參數競賽的終結:圍繞模型參數量的競賽,就像歷史上對更高處理器主頻的追求,是一個死胡同。那么,前沿模型的規模會不會越變越小呢?簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內變得比GPT-4更大。從Kaplan到Chinchilla的轉變是一次性的,因此我們沒有理由期待它繼續讓模型變小。GPT-4發布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數據和scaling計算并非每個實驗室都在采納——即使有高質量的訓練數據,對于非常小的模型而言,能夠取得的成就可能非常有限。此外,硬件的進步可能會促使更大的模型變得更優,因為在相同預算下,大模型通常表現更好。較小的模型在推理時可能表現更差,尤其在長上下文和復雜任務上。未來的模型(如GPT-5或Claude 4)可能會恢復或稍微超過GPT-4的規模,之后是否繼續縮小規模難以預料。理論上,當前硬件足以支持比GPT-4大50倍、約100萬億參數的模型,可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。但正如Karpathy所說,相比于如今這種只能根據prompt去解決博士級別問題的AI,一個能夠真正作為「實習生」入職的AI更為實用。參考資料:https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smallerhttps://x.com/OfficialLoganK/status/1868002617311596552https://x.com/DhruvBatraDB/status/1868009853324865762https://x.com/karpathy/status/1868061331355840704

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        亚洲精品写真福利| 国产精品综合一区二区三区| 亚洲永久免费av| heyzo一本久久综合| 国产精品色哟哟| 色综合久久久久综合99| 一区二区三区在线视频观看58 | 亚洲综合免费观看高清完整版在线 | 久久精品人人做人人爽97| 国产毛片一区二区| 国产精品久线观看视频| 91福利在线免费观看| 青青草国产精品97视觉盛宴| 日韩午夜在线影院| 肉色丝袜一区二区| 日韩欧美国产精品| 丁香激情综合五月| 香蕉久久夜色精品国产使用方法 | 99久久99久久精品国产片果冻| 一区二区在线免费| 精品少妇一区二区三区日产乱码| 成人精品一区二区三区四区| 亚洲www啪成人一区二区麻豆| 久久久五月婷婷| 欧美日韩国产美| 国产成人av自拍| 亚洲成在人线免费| 国产女人aaa级久久久级| 欧美日韩精品二区第二页| 国产又黄又大久久| 天天色图综合网| **性色生活片久久毛片| 欧美一区二视频| 色综合久久久久久久久| 国产在线精品一区二区不卡了 | 欧美成人性战久久| 91看片淫黄大片一级在线观看| 蜜臀av性久久久久蜜臀aⅴ| 亚洲少妇最新在线视频| 久久亚洲一区二区三区四区| 欧美久久久久中文字幕| 91久久精品一区二区三区| 国产福利一区二区三区视频在线| 日韩电影在线一区二区| 亚洲无人区一区| 亚洲色图欧美激情| 中文字幕欧美日韩一区| 欧美不卡一二三| 欧美一卡二卡在线观看| 欧美三级资源在线| 色老头久久综合| youjizz国产精品| www.欧美色图| 成人网页在线观看| 国产成a人亚洲精| 国产成人综合视频| 国产丶欧美丶日本不卡视频| 国产一区高清在线| 国产精品一区久久久久| 国模套图日韩精品一区二区| 麻豆专区一区二区三区四区五区| 日本中文字幕一区| 麻豆精品视频在线| 久久 天天综合| 久久国产免费看| 国产乱码精品1区2区3区| 国产一区999| 国产老肥熟一区二区三区| 国产高清在线精品| 91碰在线视频| 777奇米四色成人影色区| 日韩精品在线网站| 国产日韩欧美a| 亚洲欧美日韩一区二区| 亚洲另类在线视频| 亚洲.国产.中文慕字在线| 日韩不卡一二三区| 国产一区二区h| 91一区一区三区| 欧美精品九九99久久| xfplay精品久久| 亚洲视频在线观看一区| 中文字幕在线免费不卡| 色综合咪咪久久| 激情久久五月天| 精品在线一区二区三区| 日本色综合中文字幕| 久久99精品久久久久久| 成人免费视频免费观看| 色综合久久综合网97色综合| 制服.丝袜.亚洲.中文.综合| 精品免费视频一区二区| 精品中文av资源站在线观看| 国产成人av一区二区三区在线观看| 国产成人av电影在线播放| 99精品欧美一区二区三区小说 | 7777精品久久久大香线蕉| 欧美一区二区三区不卡| 国产精品九色蝌蚪自拍| 免费不卡在线观看| 色综合 综合色| 欧美一区二区三区在| 国产精品每日更新| 久久国产精品99精品国产| 一本到三区不卡视频| 久久亚洲综合av| 五月婷婷综合在线| www.av亚洲| 国产欧美一区二区精品久导航| 午夜精品久久久久久久99樱桃| 成人av网站免费观看| 欧美一级理论片| 一区二区免费看| 成人性生交大合| 精品久久国产字幕高潮| 亚洲二区在线视频| 91社区在线播放| 日本一区二区成人| 精品一二线国产| 5858s免费视频成人| 亚洲最大成人综合| 99精品视频在线观看免费| 中文字幕欧美三区| 国产精品综合av一区二区国产馆| 欧美一区在线视频| 视频在线在亚洲| 欧美理论在线播放| 亚洲精品一二三区| 91麻豆精品视频| 日韩码欧中文字| 97久久超碰精品国产| 国产精品国产三级国产三级人妇 | 精品一区二区在线看| 欧美特级限制片免费在线观看| 亚洲天堂av老司机| 97久久超碰国产精品| 日韩一区欧美一区| 一本一本久久a久久精品综合麻豆| 亚洲国产成人一区二区三区| 成人性视频网站| 自拍偷拍欧美激情| 欧美性大战久久久| 天天综合网天天综合色| 欧美一区二区视频观看视频| 精品中文字幕一区二区小辣椒 | 91精品黄色片免费大全| 亚洲成人午夜电影| 欧美精品aⅴ在线视频| 偷拍自拍另类欧美| 日韩精品一区二区三区swag| 国产精华液一区二区三区| 国产精品久久久久婷婷| 欧美亚洲综合网| 久久福利视频一区二区| 欧美极品美女视频| 一本色道久久综合精品竹菊| 日韩黄色在线观看| 国产亚洲成aⅴ人片在线观看| 成人ar影院免费观看视频| 亚洲一区二区三区四区在线观看| 99国产精品久久久久久久久久久 | 午夜精品福利一区二区三区av| 欧美一区二区三区播放老司机| 精一区二区三区| 亚洲人成伊人成综合网小说| 欧美日韩午夜在线视频| 久久成人久久爱| 曰韩精品一区二区| xnxx国产精品| 在线一区二区三区四区| 麻豆国产91在线播放| 一区精品在线播放| 欧美一区二区三区免费| 99久久免费国产| 狠狠色狠狠色综合| 亚洲综合清纯丝袜自拍| 国产欧美一区二区三区鸳鸯浴| 欧美色爱综合网| 97久久精品人人澡人人爽| 久久丁香综合五月国产三级网站| 中文字幕一区二区三区不卡| 日韩欧美在线网站| 在线亚洲一区观看| 丁香天五香天堂综合| 蜜臀久久99精品久久久久久9| 日韩美女视频一区二区| 久久久精品影视| 日韩一区二区三区免费观看| 色菇凉天天综合网| 成人激情文学综合网| 久久国产精品露脸对白| 午夜精品免费在线观看| 亚洲欧美日韩中文播放| 国产亚洲福利社区一区| 精品久久久久久无| 777奇米四色成人影色区| 91成人网在线| 色综合中文综合网| 久久久久久久国产精品影院| 91精品中文字幕一区二区三区|