50s完成7B模型量化,4bit達(dá)到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:50s完成7B模型量化,4bit達(dá)到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral
關(guān)鍵字:矩陣,權(quán)重,模型,通道,作者
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
DuQuant團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI消除激活值(outliers),大語言模型低比特量化有新招了——
自動(dòng)化所、清華、港城大團(tuán)隊(duì)最近有一篇論文入選了NeurIPS 2024(Oral Presentation),他們針對LLM權(quán)重激活量化提出了兩種正交變換,有效降低了outliers現(xiàn)象,達(dá)到了4-bit的新SOTA。
簡單理解,在大語言模型(LLM)中,有一些中間層輸出的數(shù)值(激活值 Activation)會變得非常大,它們被稱為“outliers(離群值)”,這些 outliers給模型量化帶來了挑戰(zhàn)。
補(bǔ)充一下,量化可以將模型中的數(shù)值從浮點(diǎn)數(shù)轉(zhuǎn)換為整數(shù),以減少模型的大小和計(jì)算需求。
而一旦在量化過程中存在大量outliers,會導(dǎo)致量化后的模型性能下降。
明白了這層道理, 我們再來看他們團(tuán)隊(duì)的一項(xiàng)名為DuQuant的新研究。
首先, 他們發(fā)現(xiàn)在LLM的前饋網(wǎng)絡(luò) (FFN) 模塊中的down_proj層, 存在明顯的Massive Outliers(非常大的激活值)。
這種outliers不同于以往發(fā)現(xiàn)的Normal Outliers,表現(xiàn)為大于絕對值幾百的異常
原文鏈接:50s完成7B模型量化,4bit達(dá)到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: