国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

1-bit大模型還能再突破!新一代BitNet架構(gòu)啟用4位激活值

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 新智元
398 0 0

新智元報(bào)道編輯:alan【新智元導(dǎo)讀】近日,BitNet系列的原班人馬推出了新一代架構(gòu):BitNet a4.8,為1 bit大模型啟用了4位激活值,支持3 bit KV cache,效率再突破。量化到1 bit的LLM還能再突破?這次,他們對(duì)激活值下手了!近日,BitNet系列的原班人馬推出了新一代架構(gòu):BitNet a4.8,為1 bit大模型啟用了4位激活值:論文地址:https://arxiv.org/pdf/2411.04965眾所周知,激活值量化通常是比較難辦的。本次的BitNet a4.8采用混合量化和稀疏化策略,來(lái)減輕異常通道引入的量化誤差。簡(jiǎn)單來(lái)說(shuō)就是,對(duì)注意力層和FFN層的輸入采用4位量化,同時(shí)用8位整數(shù)稀疏化中間狀態(tài)。大量實(shí)驗(yàn)表明,BitNet a4.8在相同的訓(xùn)練成本下,實(shí)現(xiàn)了與前代BitNet b1.58相當(dāng)?shù)男阅埽瑫r(shí)因?yàn)榭梢猿缘?位(INT4/FP4)內(nèi)核的計(jì)算紅利,實(shí)現(xiàn)了更快的推理速度。BitNet a4.8僅激活55%的參數(shù),并支持3 bit KV cache,進(jìn)一步提升了大規(guī)模LLM部署和推理的效率。BitNet a4.8模型架構(gòu)模型的整體架構(gòu)如圖1所示,BitNet a4.8采用了與BitNet b1.58相同的布局。作者使用BitLinear替換注意力(MHA)和前饋網(wǎng)絡(luò)(FFN)中的線(xiàn)性投影,以從頭開(kāi)始學(xué)習(xí)1.58 bit權(quán)重。對(duì)于激活值,采用混合量化和稀疏化策略來(lái)減輕異常值維度引入的誤差。圖2說(shuō)明了模型大小為7B的BitNet b1.58中,每個(gè)模塊輸入的分布。注意力層和FFN層的輸入通常類(lèi)似高斯分布,而在FFN下采樣之前的激活值和注意力中的輸出投影中,發(fā)現(xiàn)了很多異常值通道和大量接近零的條目(全精度LLM也有類(lèi)似觀察結(jié)果)。如圖3所示,直接將低位量化應(yīng)用于這些中間狀態(tài)會(huì)引入很大的量化誤差。因此,作者使用Q-Sparse的稀疏化方法,將這些中間狀態(tài)保持在8位(同時(shí)消除了計(jì)算瓶頸)。對(duì)于自注意層的輸出投影,使用sparsify-then-quantize函數(shù):兩個(gè)Q分別表示權(quán)重W和激活X的量化函數(shù),M是掩碼,根據(jù)激活X的絕對(duì)值取topK,⊙是元素乘法。具體來(lái)說(shuō),權(quán)重量化和激活值量化函數(shù)可以表述為:對(duì)于FFN,這里采用squared ReLU和門(mén)控線(xiàn)性單元(GLU)來(lái)進(jìn)一步提高激活的稀疏性:根據(jù)初步實(shí)驗(yàn)的結(jié)果,使用squared ReLU時(shí),下采樣輸入的稀疏性超過(guò)了80%,且對(duì)性能的影響最小。此外,作者還觀察到gate + squared ReLU的輸出也表現(xiàn)出高激活稀疏性(7B模型為67.5%)。通過(guò)首先計(jì)算gate projection,然后僅在非零通道上執(zhí)行up projection,可以進(jìn)一步減少推理的計(jì)算量。相比之下,attention和FFN的輸入中包含的異常值特征要少得多,可以使用absmean函數(shù)將激活值量化為4位整數(shù):模型訓(xùn)練初始化BitNet a4.8使用BitNet b1.58的權(quán)重開(kāi)始訓(xùn)練,分為W1.58A8與W1.58A4兩階段。第一階段使用8位激活和GLU + squared ReLU訓(xùn)練模型;第二階段采用上面介紹過(guò)的混合量化和稀疏化。BitNet a4.8只需少量訓(xùn)練,即可快速適應(yīng)4bit位寬和稀疏激活,同時(shí)性能損失可以忽略不計(jì)。梯度近似作者使用直通估計(jì)器(STE)對(duì)BitNet a4.8進(jìn)行梯度逼近,使用混合精度訓(xùn)練來(lái)更新參數(shù)。這里直接繞過(guò)了不可微函數(shù),包括反向傳播過(guò)程中的量化函數(shù)和topK稀疏函數(shù)。對(duì)于混合精度訓(xùn)練,保持全精度latent weight來(lái)累積參數(shù)更新。模型量化浮點(diǎn)量化提供了比基于整數(shù)的量化更寬的動(dòng)態(tài)范圍,這對(duì)于處理激活值的長(zhǎng)尾分布至關(guān)重要。研究人員將FFN下采樣層的輸入保留為8位整數(shù),其他激活值使用MinMax量化器量化為FP4:公式中E和M分別表示指數(shù)和尾數(shù)部分的位寬。這里采用E2M1格式,因?yàn)樗膭?dòng)態(tài)范圍更大。實(shí)驗(yàn)本文將BitNet a4.8、BitNet b1.58,以及各種參數(shù)量大小的FP16精度LLaMA進(jìn)行了比較。其中的1.58 bit模型,遵循BitNet b1.58的訓(xùn)練方案,采用了兩階段權(quán)重衰減和學(xué)習(xí)率調(diào)度。所有模型都使用RedPajama數(shù)據(jù)集中的100B token進(jìn)行訓(xùn)練,以確保公平比較。對(duì)于BitNet a4.8,作者首先使用95B token來(lái)訓(xùn)練8位激活值的模型。然后重用優(yōu)化器狀態(tài),并使用5B token進(jìn)行混合量化和稀疏化的訓(xùn)練。實(shí)驗(yàn)將topK設(shè)置為50%(attention的輸出投影位置)。作者使用lm-evaluation-harness工具包,評(píng)估模型在一系列語(yǔ)言任務(wù)上的zero-shot準(zhǔn)確性,包括ARC-Easy(ARCe)、ARCChallenge(ARCc)、Hellaswag(HS)、Winogrande(WGe)和PIQA(PQ)。另外還測(cè)試了在C4數(shù)據(jù)集(測(cè)試集)上的困惑度。主要結(jié)果表1總結(jié)了BitNet a4.8、BitNet b1.58和FP16 LLaMA的詳細(xì)測(cè)試結(jié)果。全精度(FP16)LLaMA和BitNet b1.58之間的性能差距,隨著模型大小的增長(zhǎng)而縮小。對(duì)于7B模型,BitNet b1.58在語(yǔ)言模型困惑度和任務(wù)的平均準(zhǔn)確性方面與LLaMA相當(dāng)。此外,相比于BitNet b1.58,BitNet a4.8的平均精度幾乎沒(méi)有損失。表2展示了各種大小的BitNet a4.8、BitNet b1.58 和 FP16 LLaMA中每個(gè)模塊的詳細(xì)稀疏性(使用C4驗(yàn)證集上的非嵌入?yún)?shù)計(jì)算)。值得注意的是,BitNet a4.8的稀疏性明顯高于BitNet b1.58和LLaMA。比如在7B模型中,BitNet a4.8的整體稀疏性達(dá)到了44.5%,只有3.4B的活躍參數(shù)。down projection層的輸入顯示出特別高的稀疏性,且中間狀態(tài)分布以零為中心。此外,gate projection的輸出非常稀疏,導(dǎo)致了up projection的高稀疏性(因?yàn)橹恍枰趶腉ate中選擇非零通道來(lái)執(zhí)行投影)。具體來(lái)說(shuō),對(duì)于7B BitNet a4.8,Gate和up projection的稀疏率分別為67.5%和12.0%。表3顯示了BitNet a4.8在3B和7B模型大小下,low-bit attention的詳細(xì)情況。模型使用4位KV或QKV頭,精度損失可忽略不計(jì),同時(shí)KV cache可以量化為3位整數(shù)。low-bit attention對(duì)于高效的長(zhǎng)序列建模至關(guān)重要,它減少了KV cache的內(nèi)存占用和IO,并加速了注意力計(jì)算。在本文的實(shí)驗(yàn)中,作者采用RoPE后量化。使用absmax函數(shù)將QKV頭直接量化為無(wú)符號(hào)整數(shù),無(wú)需任何校準(zhǔn)數(shù)據(jù)集。對(duì)于3 bit KV量化,研究人員將bos token的頭保留為4 bit,因?yàn)樗嗟漠惓V堤卣鳌O趯?shí)驗(yàn)圖4顯示了700M BitNet a4.8的訓(xùn)練損耗曲線(xiàn),比較了使用完整的INT4/FP4量化,以及本文的混合量化和稀疏化。完整的INT4量化會(huì)導(dǎo)致發(fā)散,而混合架構(gòu)在訓(xùn)練困惑度方面明顯優(yōu)于完整的FP4架構(gòu)。使用RedPajama數(shù)據(jù)集中25B token,來(lái)進(jìn)行模型的第一階段訓(xùn)練,采用absmean和MinMax量化器分別進(jìn)行完整的INT4和FP4量化。對(duì)于完整的INT4量化,由于其輸入具有更大的異常值,這里設(shè)置β = 2*mean(|X|)。接下來(lái)為1.3B BitNet a4.8的down projection層輸入,設(shè)置不同的量化或激活函數(shù)。所有模型都使用RedPajama數(shù)據(jù)集中的50B token進(jìn)行第一階段訓(xùn)練。為了確保公平比較,其他激活值都保留在8位。圖5顯示了這些模型的訓(xùn)練損失曲線(xiàn)。Squared ReLU的訓(xùn)練困惑度比Swish略好,同時(shí)實(shí)現(xiàn)了更高的稀疏性。此外,對(duì)down projection的輸入應(yīng)用FP4量化會(huì)導(dǎo)致性能顯著下降,而將INT4激活與STE一起使用會(huì)導(dǎo)致發(fā)散。參考資料:https://arxiv.org/abs/2411.04965https://venturebeat.com/ai/how-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency/

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無(wú)評(píng)論

暫無(wú)評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        亚洲欧美日韩久久| 欧美偷拍一区二区| 色吊一区二区三区| 亚洲久本草在线中文字幕| 一本到不卡精品视频在线观看| 中文字幕在线不卡国产视频| 成人高清视频在线观看| 中文字幕一区三区| 欧美喷潮久久久xxxxx| 日本aⅴ精品一区二区三区 | 国产欧美一区二区在线| 国产精品99精品久久免费| 中文字幕在线一区二区三区| 99在线热播精品免费| 亚洲少妇30p| 7777精品伊人久久久大香线蕉最新版 | 日韩视频免费观看高清完整版在线观看 | 日本午夜一本久久久综合| 日韩一级片网址| 国产精品小仙女| 一区二区三区在线视频观看58| 欧美另类变人与禽xxxxx| 国产一区二区三区免费在线观看| √…a在线天堂一区| 欧美日韩精品欧美日韩精品一| 国产精品一区二区在线看| 亚洲美女一区二区三区| 日韩欧美一区二区视频| 91在线无精精品入口| 日韩av在线免费观看不卡| 欧美国产日韩精品免费观看| 欧美视频一区在线观看| 国产91精品一区二区麻豆网站| 亚洲国产视频a| 久久久www成人免费毛片麻豆 | 国产精品免费av| 8x8x8国产精品| 99久久综合国产精品| 精品一区二区免费在线观看| 亚洲综合色婷婷| 国产女人aaa级久久久级| 在线电影欧美成精品| 91在线观看地址| 国产精品综合二区| 久久精品久久99精品久久| 亚洲一区在线观看网站| 国产精品成人免费| 久久影视一区二区| 欧美丰满少妇xxxxx高潮对白| 99久久精品国产一区二区三区| 国产一区二区主播在线| 久久成人综合网| 日韩精品免费视频人成| 亚洲一区二区视频在线| 中文字幕中文字幕在线一区 | 亚洲一区二区三区在线| 国产精品成人一区二区艾草 | 毛片av一区二区| 天天影视网天天综合色在线播放| 曰韩精品一区二区| 亚洲精品欧美二区三区中文字幕| 国产精品夫妻自拍| 亚洲欧美日本韩国| 亚洲精品免费在线播放| 亚洲精品乱码久久久久久日本蜜臀| 中文av一区二区| 国产精品白丝在线| 亚洲精品五月天| 亚洲国产一区视频| 日韩和欧美一区二区三区| 日本欧美一区二区| 麻豆免费看一区二区三区| 蜜桃av一区二区三区电影| 久久99日本精品| 国产乱人伦精品一区二区在线观看 | 亚洲曰韩产成在线| 亚洲精品伦理在线| 午夜亚洲国产au精品一区二区| 亚洲成人激情社区| 精品亚洲成a人在线观看| 国产尤物一区二区| 不卡免费追剧大全电视剧网站| 91偷拍与自偷拍精品| 在线精品视频一区二区| 在线91免费看| 久久久久久99久久久精品网站| 国产精品久久久久久久久免费桃花 | 亚洲欧美区自拍先锋| 亚洲国产精品一区二区久久 | 亚洲欧美激情在线| 亚洲在线观看免费| 国模套图日韩精品一区二区 | 日本美女一区二区三区视频| 精品午夜一区二区三区在线观看| 国产69精品久久久久毛片 | 99久久综合精品| 欧美巨大另类极品videosbest| 亚洲精品一区二区三区香蕉| 国产精品久久久久久久久免费桃花| 亚洲va韩国va欧美va精品| 麻豆精品一区二区| 99久久精品情趣| 精品免费日韩av| 怡红院av一区二区三区| 国产乱码精品一区二区三区忘忧草 | 亚洲欧美成人一区二区三区| 日本一不卡视频| 色一区在线观看| 久久久国产午夜精品| 偷拍日韩校园综合在线| 波多野结衣的一区二区三区| 欧美一级一级性生活免费录像| 成人欧美一区二区三区1314| 国内精品免费**视频| 欧美日韩国产乱码电影| 成人欧美一区二区三区黑人麻豆| 久久99久久久欧美国产| 欧美午夜理伦三级在线观看| 中文字幕乱码亚洲精品一区| 麻豆91精品91久久久的内涵| 欧美网站一区二区| 亚洲人精品午夜| 97久久精品人人做人人爽 | 亚洲成人自拍一区| 成人精品电影在线观看| 欧美v亚洲v综合ⅴ国产v| 婷婷久久综合九色国产成人| 在线视频你懂得一区| 亚洲色图.com| 成人app网站| 欧美国产精品专区| 国产成人在线视频播放| 精品久久久网站| 激情久久久久久久久久久久久久久久| 欧美亚洲国产一区二区三区va| 亚洲美女免费视频| 色综合天天综合在线视频| 日韩毛片精品高清免费| 99久久久久久| 亚洲最大的成人av| 欧美亚洲愉拍一区二区| 亚洲综合丁香婷婷六月香| 色综合天天综合色综合av| 一区二区在线观看免费| 色婷婷精品久久二区二区蜜臂av| ●精品国产综合乱码久久久久| 99国产精品久久久| 亚洲综合小说图片| 欧美日本免费一区二区三区| 日日摸夜夜添夜夜添亚洲女人| 538在线一区二区精品国产| 青娱乐精品在线视频| 日韩三级视频中文字幕| 国产精品一二三区在线| 国产精品女主播在线观看| 99re66热这里只有精品3直播 | 国产精品嫩草影院av蜜臀| 成人免费毛片高清视频| 亚洲欧美激情在线| 欧美日韩二区三区| 国产一区二区三区在线观看免费视频 | 波多野结衣亚洲| 亚洲永久免费视频| 欧美大白屁股肥臀xxxxxx| 国产精品一区二区视频| 国产精品天天看| 欧美日韩在线三级| 久久草av在线| 亚洲美女免费在线| 日韩免费一区二区三区在线播放| 成人污污视频在线观看| 亚洲午夜久久久久中文字幕久| 日韩一区二区在线看片| 成人黄色在线网站| 麻豆视频一区二区| 亚洲天堂久久久久久久| 欧美一级专区免费大片| 91亚洲永久精品| 国内成+人亚洲+欧美+综合在线| 亚洲日本一区二区三区| 精品久久久久久久一区二区蜜臀| 成人app软件下载大全免费| 视频在线观看国产精品| 国产精品理伦片| 欧美一区二区三区爱爱| 95精品视频在线| 久久99精品久久久久久国产越南 | 亚洲丰满少妇videoshd| 国产情人综合久久777777| 在线不卡免费欧美| 91免费观看视频在线| 国产一区在线精品| 婷婷综合久久一区二区三区| 国产精品福利一区二区三区| 精品国产乱码久久久久久浪潮| 一本色道综合亚洲| 高清av一区二区| 国产乱码精品一区二区三区忘忧草 | 久久久久久久久久电影| 欧美日韩性生活|