AIGC動態歡迎閱讀
原標題:解決LLaMA、BERT等部署難題:首個4-bit浮點量化LLM來了
文章來源:機器之心
內容字數:5615字
內容摘要:機器之心專欄機器之心編輯部這篇文章給出了大模型 FP 量化的解決方案。大語言模型 (LLM) 壓縮一直備受關注,后訓練量化(Post-training Quantization) 是其中一種常用算法,但是現有 PTQ 方法大多數都是 integer 量化,且當比特數低于 8 時,量化后模型的準確率會下降非常多。想較于 Integer (INT) 量化,Floating Point (FP) 量化能更好的表示長尾分布,因而越來越多的硬件平臺開始支持 FP 量化。而這篇文章給出了大模型 FP 量化的解決方案。文章發表在 EMNLP 2023 上。論文地址:https://arxiv.org/abs/2310.16836代碼地址:https://github.com/nbasyl/LLM-FP4要了解本文,必須要先具備基本的有關 Floating Point Format 以及 Floating…
原文鏈接:點此閱讀原文:解決LLaMA、BERT等部署難題:首個4-bit浮點量化LLM來了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...