<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態9個月前發布 量子位
        344 0 0

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態歡迎閱讀

        原標題:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多
        關鍵字:注意力,能量,梯度,函數,拓撲
        文章來源:量子位
        內容字數:0字

        內容摘要:


        夢晨 發自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。
        環注意力(Ring Attention)后繼者——樹注意力(Tree Attention)來了。
        最關鍵之處在于,通信步數隨設備數量成對數增長,而不是線性增長。
        換句話說,樹注意力的優勢隨著設備數量增大會更加明顯。實驗中,在128卡、512萬序列長度設置時達到最高8倍加速。
        與環注意力相比,峰值內存占用也能節省不少。
        相關代碼已經開源,基于谷歌jax框架,已和Flash Attention整合,實現起來只需要30行代碼。
        論文一公布,就被業界評價為“對高推理需求的大型公司很重要”。
        這下和黃仁勛的GPU“買的越多,省的越多”論對上了,英偉達再次贏麻。
        注意力機制的能量視角首先簡單回顧一下這次被拿來對比的環注意力,由UC伯克利大牛Pieter Abeel團隊提出。
        環注意力被認為是讓上一波大模型紛紛擴展到百萬上下文的關鍵,從谷歌Gemini 1.5到后來的Llama 3.1系列都用了它的某種變體。
        簡單來說,環注意力的核心思想是將長序列分成多個Block,每個GPU處理一個。


        原文鏈接:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品综合久久中文字幕| 亚洲欧洲日产国码高潮αv| 国产V亚洲V天堂无码| 日本一区二区三区在线视频观看免费 | 亚洲大码熟女在线观看| 亚洲性线免费观看视频成熟| 亚洲综合激情另类小说区| 99在线观看免费视频| 国产成人精品男人免费| 亚洲国产成人久久精品软件 | 亚洲免费网站观看视频| 精品亚洲AV无码一区二区三区| 美丽的姑娘免费观看在线播放| 亚洲电影在线免费观看| 国产成人yy免费视频| 亚洲w码欧洲s码免费| 在线免费观看一级片| 久久水蜜桃亚洲AV无码精品| 四虎永久在线精品免费观看地址| 国产AV无码专区亚洲AV蜜芽| 亚洲国产天堂久久综合| 中文在线观看国语高清免费| 亚洲AV日韩AV永久无码免下载| 麻豆亚洲AV成人无码久久精品| 免费一看一级毛片全播放| 久久精品无码免费不卡| 亚洲国产成人久久精品动漫| 一区二区免费国产在线观看| 啦啦啦在线免费视频| 粉色视频成年免费人15次| 国产亚洲AV手机在线观看| 日日摸夜夜添夜夜免费视频| 亚洲乱码一区二区三区在线观看 | 啦啦啦在线免费视频| 国产精品永久免费| 免费a级黄色毛片| 久久免费观看国产精品88av| 亚洲三级高清免费| 久久久久亚洲AV成人网人人软件| 无码A级毛片免费视频内谢| 久久亚洲AV午夜福利精品一区|