<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降

        AIGC動態(tài)6個月前發(fā)布 AI范兒
        489 0 0

        300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降

        原標(biāo)題:300行代碼顛覆矩陣計(jì)算!DeepSeek開源DeepGEMM:FP8精度+MoE優(yōu)化,LLM推理成本直降
        文章來源:AI范兒
        內(nèi)容字?jǐn)?shù):2230字

        DeepSeek開源周第三天:高性能FP8通用矩陣乘法庫DeepGEMM發(fā)布

        DeepSeek開源周第三天重磅推出DeepGEMM,這是一個專為FP8通用矩陣乘法(GEMM)設(shè)計(jì)的高性能計(jì)算庫,旨在提升人工智能在資源受限環(huán)境下的計(jì)算能力。作為一家致力于開發(fā)高效、低成本大語言模型(LLM)的公司,DeepSeek通過DeepGEMM進(jìn)一步強(qiáng)化了其技術(shù)實(shí)力。

        1. DeepGEMM的核心優(yōu)勢與創(chuàng)新

        DeepGEMM的核心優(yōu)勢在于實(shí)現(xiàn)了DeepSeek-V3中提出的細(xì)粒度縮放功能,并特別優(yōu)化了混合專家系統(tǒng)(MoE)架構(gòu)中的分組矩陣乘法,這是DeepSeek-V3和DeepSeek-R1等先進(jìn)模型的關(guān)鍵計(jì)算需求。它采用創(chuàng)新的安裝方式,無需復(fù)雜的預(yù)編譯過程,通過輕量級即時編譯(JIT)模塊在運(yùn)行時編譯所有內(nèi)核,簡化了部署和使用流程。 DeepGEMM用CUDA編寫,核心內(nèi)核函數(shù)僅約300行代碼,易于理解和學(xué)習(xí)。

        2. 精度與性能的平衡

        當(dāng)前版本的DeepGEMM針對NVIDIA Hopper張量核心進(jìn)行了優(yōu)化。為了解決FP8張量核心在累加計(jì)算時可能面臨的精度問題,它采用了CUDA核心的兩級累加技術(shù),在保證速度的同時提升了計(jì)算精度。雖然借鑒了CUTLASS和CuTe的一些概念,但DeepGEMM避免了過度依賴,追求簡潔的設(shè)計(jì)。

        3. 令人印象深刻的性能表現(xiàn)

        盡管設(shè)計(jì)輕量,DeepGEMM在各種矩陣形狀下的性能表現(xiàn)都非常出色。在H800 GPU上使用NVCC 12.8的測試結(jié)果顯示,在DeepSeek-V3/R1推理過程中可能用到的大多數(shù)矩陣形狀(包括預(yù)填充和解碼階段,不包含張量并行)上,其性能能夠媲美甚至超越那些由專家精心調(diào)優(yōu)的庫。

        4. DeepGEMM的意義

        DeepGEMM的推出對DeepSeek和整個AI社區(qū)都具有重要意義:

        1. 提升計(jì)算效率:優(yōu)化底層矩陣運(yùn)算,顯著減少訓(xùn)練和推理時的計(jì)算資源需求,尤其適合硬件受限環(huán)境。
        2. 降低運(yùn)行成本:支持DeepSeek以低成本構(gòu)建高性能模型的戰(zhàn)略,減少對高端硬件的依賴。
        3. MoE架構(gòu)優(yōu)化:針對MoE模型的特點(diǎn)進(jìn)行了專門優(yōu)化,提升了推理速度和能效。
        4. 開源賦能:作為DeepSeek開放策略的一部分,為開發(fā)者社區(qū)提供了一個強(qiáng)大的工具。

        5. 總結(jié)

        DeepGEMM的發(fā)布是DeepSeek開源周的又一亮點(diǎn),它是一個高效、輕量級且易于使用的FP8 GEMM庫,為構(gòu)建高效、低成本的AI模型提供了強(qiáng)有力的支持,并為AI社區(qū)貢獻(xiàn)了一個寶貴的開源資源。其在性能和精度上的平衡,以及對MoE架構(gòu)的優(yōu)化,使其成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)重要進(jìn)展。


        聯(lián)系作者

        文章來源:AI范兒
        作者微信:
        作者簡介:專注于探索 AIGC,發(fā)掘人工智能的樂趣。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av无码专区在线观看下载| 精品亚洲永久免费精品| 亚洲国产日韩在线一区| 午夜无码A级毛片免费视频| 亚洲日韩激情无码一区| 精品久久久久久国产免费了| 国产亚洲精品AA片在线观看不加载 | 91视频免费网址| 亚洲国产精品国自产电影| 亚洲国产综合在线| 免费视频专区一国产盗摄| 亚洲综合久久一本伊伊区| 久久久久久久久免费看无码| 一本色道久久88—综合亚洲精品| 又粗又长又爽又长黄免费视频 | 亚洲综合色一区二区三区| 成人片黄网站A毛片免费| 亚洲av中文无码字幕色不卡 | 免费va人成视频网站全| 视频免费1区二区三区| 国产亚洲精品一品区99热| 99re6在线视频精品免费下载| 亚洲国产精品张柏芝在线观看| 成人免费一级毛片在线播放视频| 亚洲国产精品网站在线播放| 亚洲日韩人妻第一页| 久久久久久国产精品免费免费男同 | 57pao一国产成永久免费| 中中文字幕亚洲无线码| 亚洲成年人啊啊aa在线观看| 暖暖免费日本在线中文| 亚洲精品人成网在线播放影院 | 666精品国产精品亚洲| 在线观看人成网站深夜免费| 中文字幕亚洲免费无线观看日本| 在线v片免费观看视频| 一级毛片aa高清免费观看| 亚洲综合亚洲国产尤物| 久久国产精品免费专区| 亚洲国产综合精品中文第一| 浮力影院亚洲国产第一页|