拆分Transformer注意力,韓國團(tuán)隊(duì)讓大模型解碼提速20倍

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:拆分Transformer注意力,韓國團(tuán)隊(duì)讓大模型解碼提速20倍
關(guān)鍵字:向量,注意力,吞吐量,全局,序列
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI只要將注意力切塊,就能讓大模型解碼提速20倍。
來自韓國科學(xué)技術(shù)研究院、LG和DeepMind的研究人員,提出了一種新的Transformer架構(gòu)。
不僅獲得了更快的推理速度,內(nèi)存開銷也大幅度下降。
研究人員詳細(xì)分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一個(gè)Token就要訪問一次全局KV緩存,消耗了大量資源。
實(shí)際上,這種方法的GPU有效利用率不到1%,其余的99%都用在了內(nèi)存訪問上。
針對(duì)這一問題,團(tuán)隊(duì)對(duì)Transformer的注意力機(jī)制進(jìn)行了切塊調(diào)整,提出了名為Block Transformer的新架構(gòu)。
結(jié)果在沒有明顯質(zhì)量損失的情況下,推理吞吐量提升了10-20倍。
有網(wǎng)友表示,自己之前也有過類似的思路,但結(jié)果模型的性能不足,現(xiàn)在這個(gè)方法看上去確實(shí)有效削減了KV緩存。
“切開”Transformer的注意力原始Transformer當(dāng)中,對(duì)全局KV的頻繁訪問,導(dǎo)致計(jì)算復(fù)雜度高、內(nèi)存占用大,但推理吞吐量卻很低。
針對(duì)這一問題,作者的核心思路是將原始Transformer的全局注意力分解,
原文鏈接:拆分Transformer注意力,韓國團(tuán)隊(duì)讓大模型解碼提速20倍
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)