<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態9個月前發布 量子位
        485 0 0

        清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        AIGC動態歡迎閱讀

        原標題:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐
        關鍵字:精度,矩陣,權重,開銷,準確率
        文章來源:量子位
        內容字數:0字

        內容摘要:


        PACMAN實驗室投稿量子位 | 公眾號 QbitAI一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!
        清華大學計算機系PACMAN實驗室發布開源混合精度推理系統——MixQ。
        MixQ支持8比特和4比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。
        △圖1 MixQ吞吐與已有開源工作比較MixQ同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準確性,通過系統優化掩蓋高精度訪存開銷。
        不僅保持推理的準確性,而且通過使用低精度算力有效提升吞吐,充分發揮硬件計算潛力(圖1)。
        同時,研究團隊提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。
        △圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理MixQ已支持多個主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據了解,目前MixQ開源技術已被清程極智等AI行業公司應用在實際產品中。
        該工作同時于高性能計算


        原文鏈接:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费一级不卡毛片| 日本在线观看免费高清| 嫩草影院在线播放www免费观看| www国产亚洲精品久久久日本| 亚洲愉拍一区二区三区| 在线看片免费不卡人成视频| 91亚洲精品麻豆| 在线观看视频免费完整版 | 亚洲免费观看视频| 最近国语视频在线观看免费播放| 国产亚洲精品免费视频播放 | 99在线观看视频免费| 亚洲精品动漫在线| 在线v片免费观看视频| 亚洲av无码专区青青草原| 国产99视频精品免费视频7| 无码 免费 国产在线观看91| 亚洲人成网站观看在线播放| 中文字幕不卡高清免费| 亚洲AV无码久久精品狠狠爱浪潮| 三年片在线观看免费大全电影| 亚洲理论片在线观看| 免费的涩涩视频在线播放| 日韩精品无码免费视频| 国产偷v国产偷v亚洲高清| 久久精品中文字幕免费| 色偷偷女男人的天堂亚洲网| 免费一级成人毛片| 99在线视频免费| 国产精品亚洲一区二区无码| 亚洲免费人成在线视频观看| 无码人妻精品中文字幕免费东京热| 中文日韩亚洲欧美制服| 亚洲日韩国产精品乱| 95免费观看体验区视频| 亚洲综合色婷婷在线观看| 亚洲综合伊人久久综合| 午夜性色一区二区三区免费不卡视频 | 久久国产精品萌白酱免费| 日本亚洲免费无线码| 亚洲精品乱码久久久久66|