大模型壓縮KV緩存新突破，中科大提出自適應預算分配，工業界已落地vLLM框架

AIGC動態歡迎閱讀

原標題：大模型壓縮KV緩存新突破，中科大提出自適應預算分配，工業界已落地vLLM框架
關鍵字：報告,注意力,預算,分配,團隊
文章來源：量子位
內容字數：0字

內容摘要：

中科大博士馮源投稿量子位 | 公眾號 QbitAI改進KV緩存壓縮，大模型推理顯存瓶頸迎來新突破——
中科大研究團隊提出Ada-KV，通過自適應預算分配算法來優化KV緩存的驅逐過程，以提高推理效率。
打破KV Cache壓縮將所有注意力頭分配相同壓縮預算的常規做法，針對不同的注意力頭進行適配性壓縮預算分配
展開來說，由于大模型在自回歸生成過程中，每生成一個新token都需要將對應的KV矩陣存儲下來，這導致緩存隨著生成序列長度的增加而急劇膨脹，引發內存和I/O延遲問題，尤其在長序列推理中尤為突出。
因此，KV緩存壓縮成為了一項必要的優化。
不過令人頭禿的是，現有壓縮方法往往在各個注意力頭之間平均分配預算，未能考慮其特性差異。
而中科大團隊在注意到——不同注意力頭關注度存在差異后，對其進行適配性壓縮預算分配，通過精細化運作帶來更高的壓縮質量。
相關研究不僅在學術界引起討論，更實現了工業界開源落地。
例如，Cloudflare workers AI團隊進一步將其改進落地于工業部署常用的vLLM框架中，并發布技術報告，開源全部代碼。
KV緩存壓縮從均勻性預算分配→適配性預算分配一開始，Ada

原文鏈接：大模型壓縮KV緩存新突破，中科大提出自適應預算分配，工業界已落地vLLM框架