不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預測它

AIGC動態(tài)2年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預測它
關鍵字：數(shù)據(jù),復雜度,句法,壓縮率,參數(shù)
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

機器之心報道
機器之心編輯部一般而言，訓練神經(jīng)網(wǎng)絡耗費的計算量越大，其性能就越好。在擴大計算規(guī)模時，必須要做個決定：是增多模型參數(shù)量還是提升數(shù)據(jù)集大小 —— 必須在固定的計算預算下權(quán)衡此兩項因素。
Scaling law 告訴我們：只要能適當?shù)胤峙鋮?shù)和數(shù)據(jù)，就能在固定計算預算下實現(xiàn)性能最大化。之前已有不少研究探索過神經(jīng)語言模型的 Scaling law，而這些研究通常得出的結(jié)論是參數(shù)和訓練 token 數(shù)應當一比一地擴展。
但是，之前的語言模型 Scaling law 研究都是基于在散亂的網(wǎng)絡文本上訓練的 Transformer 得到的。這是一種非常特定的數(shù)據(jù)分布，因此我們自然會問：基于這樣的網(wǎng)絡文本數(shù)據(jù)集得到的 Scaling law 是否可以泛化到其它分布？
此外，人們普遍認為，訓練數(shù)據(jù)混合的秘訣在于能讓前沿探索的產(chǎn)業(yè)界實驗室能持續(xù)產(chǎn)出當前最佳的 LLM。考慮到提升數(shù)據(jù)質(zhì)量能顯著提升語言模型的性能，而強化學習的 Scaling law 也會隨博弈難度而縮放，也許我們可以假設：當前的語言模型 Scaling law（即 Chinchilla）只是針對網(wǎng)絡文本數(shù)據(jù)的具體案例，其背后還

原文鏈接：不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預測它