如何通過(guò)KV稀疏實(shí)現(xiàn)對(duì)vLLM的1.5倍加速
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:如何通過(guò)KV稀疏實(shí)現(xiàn)對(duì)vLLM的1.5倍加速
關(guān)鍵字:模型,算法,性能,特性,策略
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者 | PPIO 算法專家張青青前 言近一年以來(lái),自 H2O 起,關(guān)于 KV 稀疏的論文便百花齊放,而在實(shí)際應(yīng)用中不得不面臨的一個(gè)問(wèn)題便是學(xué)術(shù)論文與實(shí)際應(yīng)用之間的巨大鴻溝,例如,像 vLLM 等框架采用的是 PagedAttention 等分頁(yè)內(nèi)存,與大部分的稀疏算法都無(wú)法與之兼容或者本身性能不如 PagedAttention,類(lèi)似的種種問(wèn)題,導(dǎo)致了稀疏算法無(wú)法真正的在生產(chǎn)中應(yīng)用。
我們參考 KV 稀疏這一方向最近一年的學(xué)術(shù)論文,結(jié)合 vLLM 框架本身的優(yōu)化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,對(duì) VLLM 框架進(jìn)行基于 KV 稀疏的修改,最終基于線上最常用的模型、參數(shù)與硬件,與 sota 版本的推理框架進(jìn)行對(duì)比,實(shí)現(xiàn)了 1.5 倍的推理加速。
說(shuō)到 KV 稀疏之前,不得不說(shuō)的便是 LLM 的 Massive Activations 特性,即在 LLM 中有很少數(shù)的激活值明顯活躍于其他的激活,有時(shí)候高于其他激活 100,000 倍以上,換而言之,即少部分的 token 起到了至關(guān)重要的作用,因而可以通過(guò)
原文鏈接:如何通過(guò)KV稀疏實(shí)現(xiàn)對(duì)vLLM的1.5倍加速
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:
作者簡(jiǎn)介: