不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預(yù)測它
AIGC動態(tài)歡迎閱讀
原標(biāo)題:不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預(yù)測它
關(guān)鍵字:數(shù)據(jù),復(fù)雜度,句法,壓縮率,參數(shù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部一般而言,訓(xùn)練神經(jīng)網(wǎng)絡(luò)耗費(fèi)的計算量越大,其性能就越好。在擴(kuò)大計算規(guī)模時,必須要做個決定:是增多模型參數(shù)量還是提升數(shù)據(jù)集大小 —— 必須在固定的計算預(yù)算下權(quán)衡此兩項因素。
Scaling law 告訴我們:只要能適當(dāng)?shù)胤峙鋮?shù)和數(shù)據(jù),就能在固定計算預(yù)算下實現(xiàn)性能最大化。之前已有不少研究探索過神經(jīng)語言模型的 Scaling law,而這些研究通常得出的結(jié)論是參數(shù)和訓(xùn)練 token 數(shù)應(yīng)當(dāng)一比一地擴(kuò)展。
但是,之前的語言模型 Scaling law 研究都是基于在散亂的網(wǎng)絡(luò)文本上訓(xùn)練的 Transformer 得到的。這是一種非常特定的數(shù)據(jù)分布,因此我們自然會問:基于這樣的網(wǎng)絡(luò)文本數(shù)據(jù)集得到的 Scaling law 是否可以泛化到其它分布?
此外,人們普遍認(rèn)為,訓(xùn)練數(shù)據(jù)混合的秘訣在于能讓前沿探索的產(chǎn)業(yè)界實驗室能持續(xù)產(chǎn)出當(dāng)前最佳的 LLM。考慮到提升數(shù)據(jù)質(zhì)量能顯著提升語言模型的性能,而強(qiáng)化學(xué)習(xí)的 Scaling law 也會隨博弈難度而縮放,也許我們可以假設(shè):當(dāng)前的語言模型 Scaling law(即 Chinchilla)只是針對網(wǎng)絡(luò)文本數(shù)據(jù)的具體案例,其背后還
原文鏈接:不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預(yù)測它
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺