Llama 3低比特量化性能下降顯著!全面評(píng)估結(jié)果來(lái)了 | 港大&北航Ð
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Llama 3低比特量化性能下降顯著!全面評(píng)估結(jié)果來(lái)了 | 港大&北航Ð
關(guān)鍵字:權(quán)重,性能,方法,數(shù)據(jù),模型
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4343字
內(nèi)容摘要:
QHT 投稿量子位 | 公眾號(hào) QbitAI大模型力大磚飛,讓LLaMA3演繹出了新高度:
超15T Token數(shù)據(jù)上的超大規(guī)模預(yù)訓(xùn)練,既實(shí)現(xiàn)了令人印象深刻的性能提升,也因遠(yuǎn)超Chinchilla推薦量再次引爆開源社區(qū)討論。
與此同時(shí),在實(shí)際應(yīng)用層面上,另一個(gè)熱點(diǎn)話題也浮出水面:
資源有限場(chǎng)景下,LLaMA3的量化表現(xiàn)又會(huì)如何?
香港大學(xué)、北京航空航天大學(xué)、蘇黎世聯(lián)邦理工學(xué)院聯(lián)合推出了一項(xiàng)實(shí)證研究,全面揭示了LLaMA3的低比特量化性能。
研究人員使用現(xiàn)有的10種訓(xùn)練后量化和LoRA微調(diào)方法,評(píng)估了LLaMA3在1-8比特和各種評(píng)估數(shù)據(jù)集上的結(jié)果。他們發(fā)現(xiàn):
盡管性能令人印象深刻,LLaMA3在低比特量化下仍然遭受了不可忽視的退化,特別是在超低位寬上。
項(xiàng)目已在GitHub上開源,量化模型也已登陸HuggingFace。
具體來(lái)看實(shí)證結(jié)果。
軌道1:訓(xùn)練后量化表1和表2中分別提供了LLaMA3-8B和LLaMA3-70B在8種不同的PTQ方法下的低比特性能表現(xiàn),覆蓋了從1比特到8比特的廣泛比特寬度。
1.低比特權(quán)重
其中,Round-To-Nearest (RTN) 是一種基本的舍入量
原文鏈接:Llama 3低比特量化性能下降顯著!全面評(píng)估結(jié)果來(lái)了 | 港大&北航Ð
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破