AIGC動態歡迎閱讀
原標題:今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議
關鍵字:精度,模型,數據,損失,性能
文章來源:量子位
內容字數:0字
內容摘要:
一水 發自 凹非寺量子位 | 公眾號 QbitAI幾十萬人關注,一發表即被行業大佬評為“這是很長時間以來最重要的論文”。
哈佛、斯坦福、MIT等團隊的一項研究表明:訓練的token越多,需要的精度就越高。
例如,Llama-3在不同數據量下(圓形8B、三角形70B、星星405B),隨著數據集大小的增加,計算最優的精度也會增加。
換句話就是,對于大規模的訓練任務,低精度的量化可能不再足夠有效。
按照結論,對Scaling Law的遵循意味著我們需要保持更高精度,然而一直以來,人們通常會選擇量化(將連續值或多精度值轉換為較低精度)來節省計算資源。
一旦結論成立,GPU的設計和功能可能也需要相應調整,因為傳統上,GPU的性能提升部分依賴于對低精度計算的優化。
正如艾倫AI研究所科學家所指出的:
這是很長時間以來最重要的論文。它用強有力的證據表明,我們正在達到量化的極限。論文得出的結論對整個領域以及GPU的未來有著廣泛的影響。
與此同時,研究得出了兩個重要結論:
如果量化是在后訓練階段進行的,那么更多的預訓練數據最終可能反而有害;
在高(BF16)和下一代(FP4)精度下進行預訓練可能都是次優
原文鏈接:今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...