這項研究為大模型訓練中的浮點數量化提供了重要的理論指導。
原標題:大模型量化訓練極限在哪?騰訊混元提出低比特浮點數訓練Scaling Laws
文章來源:機器之心
內容字數:6315字
騰訊混元團隊揭示大模型浮點量化訓練Scaling Laws
本文總結了騰訊混元團隊發表的論文《Scaling Laws for Floating–Point Quantization Training》的主要內容,該論文深入研究了大模型浮點量化訓練的規律,并提出了相應的Scaling Laws,為大模型低精度訓練提供了重要的理論指導。
1. 研究背景與意義
大模型訓練和推理成本高昂,低比特量化技術成為降低成本的關鍵方法?,F有研究多關注整數量化,而實際應用中浮點量化因其精度損失更小而更常用。因此,騰訊混元團隊對浮點量化訓練進行了系統研究,以期建立指導大模型浮點量化訓練的Scaling Laws。
2. 浮點量化訓練的Scaling Laws
該團隊進行了366組不同參數規模和精度的浮點量化訓練實驗,最終得出了一個統一的Scaling Law公式,該公式綜合考慮了模型大小(N)、訓練數據量(D)、指數位(E)、尾數位(M)以及量化時放縮因子共享粒度(B)等因素對模型訓練損失的影響:
該公式中,前三項基于經典的Chinchilla Scaling Law,第四項表示浮點量化帶來的額外損失。研究發現,E、M和B的聯合項可以看作某種形式的精度表示,大模型在過低精度下無法承載過高的知識密度,導致額外損失。
3. 關鍵結論與發現
基于該Scaling Laws,研究團隊得出以下重要結論:
- 模型極限效果與最佳數據量: 任意低精度大模型浮點量化訓練都存在一個模型極限效果及對應的最佳數據量。超過此最佳數據量繼續增加數據反而會降低模型效果。
- 最佳性價比精度: 在限定計算資源下,理論預測的最佳性價比的浮點數量化訓練精度落在4-8比特之間。
- 指數位與尾數位的最佳配比: 研究推導出了指數位和尾數位對模型效果的定量關系,并給出了最佳配比規律。
- 放縮因子共享粒度影響: 驗證損失與放縮因子共享粒度B的對數成正比例關系。
- 精度與參數量的“匯率”關系: 在資源受限的情況下,精度P和參數量N之間存在一個類似“匯率”的關系,指導資源配置。
- 無法跨越的效果屏障: 每個精度都存在一個對應的極限效果,無論使用多少數據都無法超越。超過此極限數據量,繼續增加數據反而有害。
4. 研究價值與意義
這項研究為大模型訓練中的浮點數量化提供了重要的理論指導。它不僅明確了在給定資源和精度下的最優參數配置策略,幫助提高訓練效率和降低成本,而且對于推動大模型在實際應用中的更廣泛部署具有關鍵意義。同時,該研究也為硬件制造商優化浮點運算能力提供了依據,為研究人員在大模型優化和創新方面開辟了新的思路和方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺