如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

AIGC動態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標(biāo)題：如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速
關(guān)鍵字：模型,算法,性能,特性,策略
文章來源：AI前線
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

作者 | PPIO 算法專家張青青前言近一年以來，自 H2O 起，關(guān)于 KV 稀疏的論文便百花齊放，而在實際應(yīng)用中不得不面臨的一個問題便是學(xué)術(shù)論文與實際應(yīng)用之間的巨大鴻溝，例如，像 vLLM 等框架采用的是 PagedAttention 等分頁內(nèi)存，與大部分的稀疏算法都無法與之兼容或者本身性能不如 PagedAttention，類似的種種問題，導(dǎo)致了稀疏算法無法真正的在生產(chǎn)中應(yīng)用。
我們參考 KV 稀疏這一方向最近一年的學(xué)術(shù)論文，結(jié)合 vLLM 框架本身的優(yōu)化特性，例如 Continuous Batching、FlashAttention、PagedAttention 等，對 VLLM 框架進行基于 KV 稀疏的修改，最終基于線上最常用的模型、參數(shù)與硬件，與 sota 版本的推理框架進行對比，實現(xiàn)了 1.5 倍的推理加速。
說到 KV 稀疏之前，不得不說的便是 LLM 的 Massive Activations 特性，即在 LLM 中有很少數(shù)的激活值明顯活躍于其他的激活，有時候高于其他激活 100,000 倍以上，換而言之，即少部分的 token 起到了至關(guān)重要的作用，因而可以通過

原文鏈接：如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

聯(lián)系作者

文章來源：AI前線
作者微信：
作者簡介：

閱讀原文

# AIGC動態(tài)# 性能 # 模型 # 特性 # 策略 # 算法

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

不怪奧特曼慌！最大對手Anthropic搶先讓AI 接管人類電腦，網(wǎng)友怒贊并喊話OpenAI：看看人家

觀察者智能水平導(dǎo)致物理學(xué)三大理論差異，智能科學(xué)視野下的萬物理論新探索

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

不怪奧特曼慌！最大對手Anthropic搶先讓AI 接管人類電腦，網(wǎng)友怒贊并喊話OpenAI：看看人家

觀察者智能水平導(dǎo)致物理學(xué)三大理論差異，智能科學(xué)視野下的萬物理論新探索

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

不怪奧特曼慌！最大對手Anthropic搶先讓AI 接管人類電腦，網(wǎng)友怒贊并喊話OpenAI：看看人家

玩虛擬模特？