<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        AIGC動態10個月前發布 機器之心
        563 0 0

        無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        AIGC動態歡迎閱讀

        原標題:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升
        關鍵字:注意力,跨度,模型,長度,上下文
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心發布
        機器之心編輯部隨著大語言模型在長文本場景下的需求不斷涌現,其核心的注意力機制(Attention Mechanism)也獲得了非常多的關注。
        注意力機制會計算一定跨度內輸入文本(令牌,Token)之間的交互,從而實現對上下文的理解。隨著應用的發展,高效處理更長輸入的需求也隨之增長 [1][2],這帶來了計算代價的挑戰:注意力高昂的計算成本和不斷增長的鍵值緩存(KV-Cache)代價。稀疏注意力機制可以有效緩解內存和吞吐量的挑戰。
        然而,現有稀疏注意力通常采用統一的稀疏注意力模式,即對不同的注意力頭和輸入長度應用相同的稀疏模式。這種統一的方法難以捕捉到大語言模型中多樣的注意力模式,導致不同注意力頭的不同的精度 – 代價權衡被忽略。
        最近,來自清華大學、無問芯穹和上海交通大學的研究團隊發表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,提出通過混合不同稀疏度的注意力頭,使用 25% 的注意力稠密度,就可以記憶幾乎 100% 的上下文。
        本工作現已開源,歡迎交流


        原文鏈接:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升

        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 毛片无码免费无码播放 | 亚洲AV无码一区二区三区DV | 免费人成在线观看网站品爱网| 亚洲人成无码网站久久99热国产| 亚洲Aⅴ在线无码播放毛片一线天| 成年轻人网站色免费看| 亚洲精品无码日韩国产不卡av| 最近最新的免费中文字幕| 亚洲乱码无人区卡1卡2卡3| 国产自产拍精品视频免费看| 18禁亚洲深夜福利人口| 亚洲国产a级视频| 三年片免费观看大全国语| 亚洲国产精品成人精品无码区 | 色播在线永久免费视频网站| 亚洲国产精品无码av| 国产精品久久永久免费| 久久综合久久综合亚洲| 国产免费av片在线无码免费看 | 亚洲伊人久久大香线蕉AV| 国产精品自在自线免费观看| 一道本不卡免费视频| 亚洲av片劲爆在线观看| 美女视频黄的全免费视频网站| 国产自国产自愉自愉免费24区| 亚洲avav天堂av在线不卡| 久久久久久精品免费看SSS| 亚洲国产精华液2020| 国产a v无码专区亚洲av| 外国成人网在线观看免费视频| 亚洲国产中文在线视频 | 国产亚洲精品国看不卡| 亚洲精品视频在线观看免费| 亚洲综合av一区二区三区| 亚洲片国产一区一级在线观看 | 久久99国产综合精品免费| 亚洲精品无码永久在线观看男男| 亚洲午夜久久久影院| 日韩一区二区a片免费观看 | 免费国产黄线在线观看| 成人网站免费大全日韩国产|