原標題:300行代碼顛覆矩陣計算!DeepSeek開源DeepGEMM:FP8精度+MoE優化,LLM推理成本直降
文章來源:AI范兒
內容字數:2230字
DeepSeek開源周第三天:高性能FP8通用矩陣乘法庫DeepGEMM發布
DeepSeek開源周第三天重磅推出DeepGEMM,這是一個專為FP8通用矩陣乘法(GEMM)設計的高性能計算庫,旨在提升人工智能在資源受限環境下的計算能力。作為一家致力于開發高效、低成本大語言模型(LLM)的公司,DeepSeek通過DeepGEMM進一步強化了其技術實力。
1. DeepGEMM的核心優勢與創新
DeepGEMM的核心優勢在于實現了DeepSeek-V3中提出的細粒度縮放功能,并特別優化了混合專家系統(MoE)架構中的分組矩陣乘法,這是DeepSeek-V3和DeepSeek-R1等先進模型的關鍵計算需求。它采用創新的安裝方式,無需復雜的預編譯過程,通過輕量級即時編譯(JIT)模塊在運行時編譯所有內核,簡化了部署和使用流程。 DeepGEMM用CUDA編寫,核心內核函數僅約300行代碼,易于理解和學習。
2. 精度與性能的平衡
當前版本的DeepGEMM針對NVIDIA Hopper張量核心進行了優化。為了解決FP8張量核心在累加計算時可能面臨的精度問題,它采用了CUDA核心的兩級累加技術,在保證速度的同時提升了計算精度。雖然借鑒了CUTLASS和CuTe的一些概念,但DeepGEMM避免了過度依賴,追求簡潔的設計。
3. 令人印象深刻的性能表現
盡管設計輕量,DeepGEMM在各種矩陣形狀下的性能表現都非常出色。在H800 GPU上使用NVCC 12.8的測試結果顯示,在DeepSeek-V3/R1推理過程中可能用到的大多數矩陣形狀(包括預填充和解碼階段,不包含張量并行)上,其性能能夠媲美甚至超越那些由專家精心調優的庫。
4. DeepGEMM的意義
DeepGEMM的推出對DeepSeek和整個AI社區都具有重要意義:
- 提升計算效率:優化底層矩陣運算,顯著減少訓練和推理時的計算資源需求,尤其適合硬件受限環境。
- 降低運行成本:支持DeepSeek以低成本構建高性能模型的戰略,減少對高端硬件的依賴。
- MoE架構優化:針對MoE模型的特點進行了專門優化,提升了推理速度和能效。
- 開源賦能:作為DeepSeek開放策略的一部分,為開發者社區提供了一個強大的工具。
5. 總結
DeepGEMM的發布是DeepSeek開源周的又一亮點,它是一個高效、輕量級且易于使用的FP8 GEMM庫,為構建高效、低成本的AI模型提供了強有力的支持,并為AI社區貢獻了一個寶貴的開源資源。其在性能和精度上的平衡,以及對MoE架構的優化,使其成為深度學習領域的一項重要進展。
聯系作者
文章來源:AI范兒
作者微信:
作者簡介:專注于探索 AIGC,發掘人工智能的樂趣。
相關文章
