本文介紹了一套針對于低比特量化的 scaling laws。
原標題:低精度只適用于未充分訓練的LLM?騰訊提出LLM量化的scaling laws
文章來源:機器之心
內容字數:5625字
騰訊AI Lab挑戰低比特量化:充分訓練的LLM量化損失巨大
本文總結了騰訊AI Lab發表在arXiv上的一篇論文,該論文挑戰了低比特量化在大型語言模型(LLM)中的普遍適用性。研究發現,低比特量化僅在未充分訓練的LLM上才能取得與fp16/bf16精度相當的性能,隨著訓練的深入,性能差距會顯著擴大。
1. 低比特量化的局限性
近年來,低比特量化因其能夠在降低模型規模、內存占用和計算資源的同時保持性能而備受關注。然而,騰訊AI Lab的研究表明,這種優勢只存在于訓練數據量較少的LLM中(通常小于5000億tokens)。當模型充分訓練后,低比特量化會導致顯著的性能下降。
2. 實驗設計與數據分析
研究人員對超過1500個不同大小和訓練程度的開源LLM檢查點進行了量化實驗,分析了量化引起的性能退化(QiD)。實驗使用了Pythia系列模型,涵蓋了不同尺寸(160M到12B參數)和訓練階段的檢查點。通過GPTQ對這些檢查點進行2-bit,3-bit,4-bit量化,并觀察QiD的變化。
研究人員發現,在模型大小固定的情況下,訓練數據量越多,QiD越大;在訓練數據量固定的情況下,模型越小,QiD越大。這表明充分訓練的模型更容易受到低比特量化的負面影響。
3. 低比特量化的Scaling Laws
基于實驗結果,研究人員推導出一套低比特量化的scaling laws,該公式可以預測不同大小和訓練程度的LLM在低比特量化下的性能損失:?qLoss = k * Nα * Dβ * Pγ 。其中,N為模型參數量,D為訓練數據量,P為量化精度(比特數),α、β、γ為正數指數,k為聯合系數。
該公式表明,更大的模型(N)、更低的精度(P)會導致更小的QiD,而更大的訓練數據量(D)會導致更大的QiD。
4. 權重變化與模型訓練程度
研究人員認為,未充分訓練的LLM權重變化幅度較大,對權重變化更魯棒,因此低比特量化造成的偏差較小。而充分訓練的LLM權重變化較小,低比特量化帶來的額外變化更容易導致性能下降。
5. QiD作為衡量訓練充分程度的指標
研究人員提出,QiD可以作為衡量LLM訓練是否充分的指標。QiD接近0表明模型尚未充分訓練,還有提升空間。利用scaling laws,可以預測不同尺寸的LLM達到指定QiD所需的訓練數據量。
6. 對原生低比特LLM的討論
研究也涵蓋了原生低比特LLM,發現其規律與低比特量化類似,但性能下降可能在更晚的訓練階段才會顯現。
7. 結論與展望
研究強調了在未充分訓練的LLM上進行實驗的局限性,呼吁社區重新審視基于此類實驗得出的結論。隨著模型訓練數據量的不斷增加,低比特量化在未來應用中的前景可能并不樂觀。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
相關文章
