<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態11個月前發布 量子位
        559 0 0

        斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        AIGC動態歡迎閱讀

        原標題:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快
        關鍵字:張量,內存,研究人員,寄存器,硬件
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAIAI算力資源越發緊張的當下,斯坦福新研究將GPU運行效率再提升一波——
        內核只有100行代碼,讓H100比使用FlashAttention-2,性能還要提升30%。
        怎么做到的?
        研究人員從“硬件實際需要什么?如何滿足這些需求?”這兩個問題出發,設計了 一個嵌入式CUDA DSL工具,名為ThunderKittens(暫且譯為雷貓)。
        雷貓可簡化AI內核的編寫,同時充分利用底層硬件能力。
        具體來說,雷貓的主要抽象是寄存器和共享內存中的小型張量塊(tile),和目前GPU中對小矩陣乘法的優化相匹配。
        通過操作這些tile,開發者可相對簡單地編寫代碼,充分利用張量核心、異步數據傳輸和共享內存等硬件特性。
        使用雷貓實現的注意力機制內核,代碼量少且能實現很高的硬件利用率,性能超過直接使用底層庫(如Cutlass)。
        詳細討論過程以及雷貓是怎么設計出的,研究人員以“GPUs Go Brrr”為題,發在了斯坦福Hazy Research的Blog網站上。
        網友們對此討論也十分熱烈。
        有網友表示讀這篇Blog時,讓他想起了初次了解超標量CPU架構時的


        原文鏈接:斯坦福讓“GPU高速運轉”的新工具火了,比FlashAttention2更快

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 永久免费无码日韩视频| 亚洲午夜电影一区二区三区| 亚洲AV无码AV日韩AV网站| 无人在线观看免费高清视频| 亚洲jjzzjjzz在线播放| 手机看黄av免费网址| 国产精品亚洲午夜一区二区三区 | 亚洲黄色在线网站| 久久午夜无码免费| 亚洲国产精品成人综合久久久 | 午夜不卡久久精品无码免费| 亚洲国产天堂在线观看| 6080午夜一级毛片免费看6080夜福利| 亚洲成AV人片在线观看ww| 久久福利青草精品资源站免费| 亚洲av无码潮喷在线观看| 97视频免费观看2区| 久久亚洲最大成人网4438| 性做久久久久免费观看| 国产精品永久免费| 亚洲精品第五页中文字幕| 成人毛片免费视频| a一级爱做片免费| 精品亚洲aⅴ在线观看| 在线观看的免费网站| 四虎精品成人免费视频| 久久久久久a亚洲欧洲AV| 最近中文字幕mv免费高清电影 | 亚洲不卡无码av中文字幕| a级成人毛片免费图片| 亚洲成a人片在线观看播放| 日本免费人成视频播放| 你懂的免费在线观看| 亚洲依依成人精品| 啊v在线免费观看| 久久久久免费精品国产| 中文字幕在线观看亚洲日韩| 国产成人毛片亚洲精品| 100000免费啪啪18免进| A级毛片成人网站免费看| 亚洲一区二区三区高清不卡|