如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速
AIGC動態(tài)歡迎閱讀
原標(biāo)題:如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速
關(guān)鍵字:模型,算法,性能,特性,策略
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者 | PPIO 算法專家張青青前 言近一年以來,自 H2O 起,關(guān)于 KV 稀疏的論文便百花齊放,而在實際應(yīng)用中不得不面臨的一個問題便是學(xué)術(shù)論文與實際應(yīng)用之間的巨大鴻溝,例如,像 vLLM 等框架采用的是 PagedAttention 等分頁內(nèi)存,與大部分的稀疏算法都無法與之兼容或者本身性能不如 PagedAttention,類似的種種問題,導(dǎo)致了稀疏算法無法真正的在生產(chǎn)中應(yīng)用。
我們參考 KV 稀疏這一方向最近一年的學(xué)術(shù)論文,結(jié)合 vLLM 框架本身的優(yōu)化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,對 VLLM 框架進(jìn)行基于 KV 稀疏的修改,最終基于線上最常用的模型、參數(shù)與硬件,與 sota 版本的推理框架進(jìn)行對比,實現(xiàn)了 1.5 倍的推理加速。
說到 KV 稀疏之前,不得不說的便是 LLM 的 Massive Activations 特性,即在 LLM 中有很少數(shù)的激活值明顯活躍于其他的激活,有時候高于其他激活 100,000 倍以上,換而言之,即少部分的 token 起到了至關(guān)重要的作用,因而可以通過
原文鏈接:如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...