<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態11個月前發布 新智元
        399 0 0

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態歡迎閱讀

        原標題:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源
        關鍵字:權重,模型,范式,矩陣,精度
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:LRST 好困
        【新智元導讀】T-MAC是一種創新的基于查找表(LUT)的方法,專為在CPU上高效執行低比特大型語言模型(LLMs)推理而設計,無需權重反量化,支持混合精度矩陣乘法(mpGEMM),顯著降低了推理開銷并提升了計算速度。?
        為增強設備上的智能性,在邊緣設備部署大型語言模型(LLMs)成為了一個趨勢,比如微軟的Windows 11 AI + PC。
        目前部署的大語言模型多會量化到低比特。然而,低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法(mpGEMM)。現有的系統由于硬件缺乏對mpGEMM的原生支持,不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷,并且無法隨著比特數進一步降低而獲得加速。
        為此,微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘,其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。代碼:https://github.com/mic


        原文鏈接:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码一区二区三区系列| 3d成人免费动漫在线观看| 国产精品观看在线亚洲人成网| 亚洲欧美中文日韩视频| 国产青草亚洲香蕉精品久久| 免费激情视频网站| 国产一区二区三区在线观看免费| 亚洲色图综合在线| 亚洲色图综合网站| 妇女自拍偷自拍亚洲精品| 老司机69精品成免费视频| 成人无码区免费A片视频WWW| 免费在线观看污网站| 亚洲精品中文字幕无码AV| 三级片免费观看久久| 7x7x7x免费在线观看| 亚洲国产精品一区二区第一页免 | 亚洲av日韩av永久在线观看| 精品无码无人网站免费视频 | 日本在线看片免费人成视频1000 | 久久久精品国产亚洲成人满18免费网站 | 免费的黄色网页在线免费观看| 88av免费观看| 亚洲www在线观看| 国产黄色片免费看| 久久久久国色AV免费看图片| 久久亚洲精品中文字幕无码| 猫咪免费观看人成网站在线| 成年女人男人免费视频播放| 亚洲欧洲精品国产区| 日本精品人妻无码免费大全| 美女黄色免费网站| 亚洲国产精品久久66| 中出五十路免费视频| 日本午夜免费福利视频| 亚洲w码欧洲s码免费| 免费h片在线观看网址最新| 亚洲av永久无码精品古装片| 57PAO成人国产永久免费视频| 亚洲欧洲第一a在线观看| 99在线视频免费观看视频|