ICLR 2024 Spotlight | 大語言模型權(quán)重、激活的全方位低bit可微量化,已集成進(jìn)商用APP
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 Spotlight | 大語言模型權(quán)重、激活的全方位低bit可微量化,已集成進(jìn)商用APP
關(guān)鍵字:權(quán)重,模型,參數(shù),方法,內(nèi)存
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8272字
內(nèi)容摘要:
機(jī)器之心專欄
作者:邵文琪模型量化是模型壓縮與加速中的一項(xiàng)關(guān)鍵技術(shù),其將模型權(quán)重與激活值量化至低 bit,以允許模型占用更少的內(nèi)存開銷并加快推理速度。對(duì)于具有海量參數(shù)的大語言模型而言,模型量化顯得更加重要。例如,GPT-3 模型的 175B 參數(shù)當(dāng)使用 FP16 格式加載時(shí),需消耗 350GB 的內(nèi)存,需要至少 5 張 80GB 的 A100 GPU。
但若是可以將 GPT-3 模型的權(quán)重壓縮至 3bit,則可以實(shí)現(xiàn)單張 A100-80GB 完成所有模型權(quán)重的加載。
現(xiàn)有的大語言模型后訓(xùn)練量化算法依賴于手工制定量化參數(shù),優(yōu)于缺乏相應(yīng)的優(yōu)化過程,導(dǎo)致面對(duì)低 bit 量化時(shí),現(xiàn)有的方法都表現(xiàn)出顯著的性能下降。盡管量化感知訓(xùn)練在確定最佳量化配置方面是有效的,但它需要引入大量額外的訓(xùn)練開銷和訓(xùn)練數(shù)據(jù)。尤其是大語言模型本身的計(jì)算量進(jìn)一步阻礙了量化感知訓(xùn)練在大預(yù)言模型量化上的應(yīng)用。
這引出一個(gè)問題:我們能否在保持后訓(xùn)練量化的時(shí)間和數(shù)據(jù)效率的同時(shí),達(dá)到量化感知訓(xùn)練的性能?
為了解決大語言模型后訓(xùn)練量化中的量化參數(shù)優(yōu)化問題,來自上海人工智能實(shí)驗(yàn)室、香港大學(xué)、香港中文大學(xué)的研究者們提出了《OmniQua
原文鏈接:ICLR 2024 Spotlight | 大語言模型權(quán)重、激活的全方位低bit可微量化,已集成進(jìn)商用APP
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
相關(guān)文章
