<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態1年前 (2024)發布 量子位
        765 0 0

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態歡迎閱讀

        原標題:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
        關鍵字:模型,范式,精度,性能,矩陣
        文章來源:量子位
        內容字數:0字

        內容摘要:


        微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU!
        沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。
        這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。
        咋做到的??
        在CPU上高效部署低比特大語言模型一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。
        常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。
        不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。
        然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。
        但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。
        對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。
        這樣,T-MAC不僅提高了推理性能


        原文鏈接:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一区无码中文字幕| 国产精品亚洲一区二区在线观看 | 国产hs免费高清在线观看| 毛片基地免费观看| 日韩一级视频免费观看| 在线a亚洲v天堂网2019无码| 亚洲视频.com| 四虎影视在线影院在线观看免费视频 | 叮咚影视在线观看免费完整版| 一区二区在线免费观看| 久久国产亚洲精品无码| 亚洲AV综合色区无码二区爱AV| 黄色毛片免费观看| 久久九九AV免费精品| 亚洲五月六月丁香激情| 亚洲免费在线视频观看| 久久精品国产亚洲精品| 97在线视频免费公开视频| 免费高清av一区二区三区| 理论亚洲区美一区二区三区| 四虎国产精品免费久久影院| 成人a毛片免费视频观看| 亚洲区小说区激情区图片区| 99爱在线观看免费完整版| 亚洲一级黄色视频| 国产成人久久AV免费| 亚洲一级毛片免费在线观看| 国产hs免费高清在线观看| 久操视频免费观看| 四虎必出精品亚洲高清| 亚洲 小说区 图片区 都市| 99久久国产精品免费一区二区| 亚洲国产日韩在线人成下载| 免费一级国产生活片| 免费视频一区二区| 亚洲欧美中文日韩视频| 无码国产精品久久一区免费| 免费又黄又爽又猛大片午夜| 色播在线永久免费视频| 91视频免费网站| 亚洲欧洲精品成人久久曰|