<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        AIGC動態1年前 (2024)發布 機器之心
        378 0 0

        大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        AIGC動態歡迎閱讀

        原標題:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一
        關鍵字:模型,主干,研究者,候選者,注意力
        文章來源:機器之心
        內容字數:7525字

        內容摘要:


        機器之心報道
        編輯:杜偉、小舟去年,在加速大語言模型推理層面,我們迎來了一個比推測解碼更高效的解決方案 —— 普林斯頓、UIUC 等機構提出的 Medusa。如今,關于 Medusa 終于有了完整技術論文,還提供了新的版本。如你我所知,在大型語言模型(LLM)的運行邏輯中,隨著規模大小的增加,語言生成的質量會隨著提高。不過,這也導致了推理延遲的增加,從而對實際應用構成了重大挑戰。
        從系統角度來看,LLM 推理主要受內存限制,主要延遲瓶頸源于加速器的內存帶寬而非算術計算。這一瓶頸是自回歸解碼的順序性所固有的,其中每次前向傳遞都需要將完整的模型參數從高帶寬內存傳輸到加速器緩存。該過程僅生成了單個的 token,沒有充分利用現代加速器的算術計算潛力,導致了效率低下。
        為了解決這一問題,加速 LLM 推理的方法被提出,既可以增加解碼過程的算術強度(FLOPs 與總數據移動的比率),也能減少解碼步驟數量。這類方法以推測解碼(speculative decoding)為代表,使用較小的草稿(draft) 模型在每一步生成 token 序列,然后通過較大的原始模型進行細化以獲得可接受的延續。不過獲得


        原文鏈接:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产av玩弄放荡人妇| 国产亚洲一区二区在线观看| 亚洲福利秒拍一区二区| a毛片免费在线观看| 亚洲熟女一区二区三区| 国产精品高清免费网站| 国产亚洲老熟女视频| 久久不见久久见免费影院www日本| 亚洲国产成人精品无码久久久久久综合| 激情无码亚洲一区二区三区| 国产无遮挡裸体免费视频| 精品久久久久久久久亚洲偷窥女厕| 精品国产免费一区二区| 日本亚洲中午字幕乱码 | 免费人成在线观看69式小视频| 久久精品国产亚洲AV无码娇色| 亚洲精品视频在线免费| 亚洲综合成人婷婷五月网址| 午夜一级毛片免费视频| 四虎国产精品成人免费久久 | 成人免费毛片观看| 亚洲国产成人久久精品软件| 免费国产一级特黄久久| 免费无码又爽又刺激高潮软件| 国产亚洲成av片在线观看| 2021在线永久免费视频| 亚洲欧美第一成人网站7777| 免费亚洲视频在线观看| 国产成人免费ā片在线观看老同学 | 免费一级一片一毛片| 中国videos性高清免费| 亚洲福利视频一区二区三区| 国产色爽女小说免费看| 精品国产免费一区二区三区| 亚洲经典在线中文字幕| 免费人成激情视频| 免费国产在线视频| 亚洲人成网亚洲欧洲无码| 国产亚洲美日韩AV中文字幕无码成人| 99热这里只有精品6免费| 深夜A级毛片视频免费|