<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

        AIGC動態(tài)10個月前發(fā)布 AI前線
        382 0 0

        如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速
        關(guān)鍵字:模型,算法,性能,特性,策略
        文章來源:AI前線
        內(nèi)容字?jǐn)?shù):0字

        內(nèi)容摘要:


        作者 | PPIO 算法專家張青青前 言近一年以來,自 H2O 起,關(guān)于 KV 稀疏的論文便百花齊放,而在實際應(yīng)用中不得不面臨的一個問題便是學(xué)術(shù)論文與實際應(yīng)用之間的巨大鴻溝,例如,像 vLLM 等框架采用的是 PagedAttention 等分頁內(nèi)存,與大部分的稀疏算法都無法與之兼容或者本身性能不如 PagedAttention,類似的種種問題,導(dǎo)致了稀疏算法無法真正的在生產(chǎn)中應(yīng)用。
        我們參考 KV 稀疏這一方向最近一年的學(xué)術(shù)論文,結(jié)合 vLLM 框架本身的優(yōu)化特性,例如 Continuous Batching、FlashAttention、PagedAttention 等,對 VLLM 框架進(jìn)行基于 KV 稀疏的修改,最終基于線上最常用的模型、參數(shù)與硬件,與 sota 版本的推理框架進(jìn)行對比,實現(xiàn)了 1.5 倍的推理加速。
        說到 KV 稀疏之前,不得不說的便是 LLM 的 Massive Activations 特性,即在 LLM 中有很少數(shù)的激活值明顯活躍于其他的激活,有時候高于其他激活 100,000 倍以上,換而言之,即少部分的 token 起到了至關(guān)重要的作用,因而可以通過


        原文鏈接:如何通過KV稀疏實現(xiàn)對vLLM的1.5倍加速

        聯(lián)系作者

        文章來源:AI前線
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲人成网77777亚洲色| 69xx免费观看视频| 日本黄色免费观看| 亚洲成av人片不卡无码| 一级毛片免费播放| 亚洲精品tv久久久久久久久| 日本亚洲欧美色视频在线播放 | 大地资源免费更新在线播放| 亚洲国语在线视频手机在线| 99在线在线视频免费视频观看 | 成人男女网18免费视频| 一区二区亚洲精品精华液| 免费视频中文字幕| 青青青亚洲精品国产| 一级成人a免费视频| 免费无码黄十八禁网站在线观看| 亚洲免费二区三区| 麻豆一区二区免费播放网站| 国产精品亚洲专区在线观看| 最近中文字幕无吗高清免费视频| 亚洲国产高清国产拍精品| 国产三级电影免费观看| 抽搐一进一出gif免费视频| 亚洲AV综合色区无码一区爱AV| 久99久精品免费视频热77| 亚洲一级毛片视频| 在线免费观看韩国a视频| 国产精品免费久久| 午夜亚洲AV日韩AV无码大全| 亚州免费一级毛片| 亚洲国产成人久久精品软件| 亚洲麻豆精品国偷自产在线91| 永久免费不卡在线观看黄网站| 亚洲一区二区三区免费在线观看| 国产精品国产免费无码专区不卡| 国产免费人成视频尤勿视频| 亚洲美女视频一区| 国产最新凸凹视频免费| 久久成人免费大片| 亚洲国产精品精华液| 亚洲精品无码Av人在线观看国产|