騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
關鍵字：華為,算子,騰訊,顯存,模型
文章來源：機器之心
內容字數：16971字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文作者袁鐿博士是騰訊公司專家工程師，負責無量系統和一念LLM等機器學習訓練和推理框架研發。
以 OpenAI 的 GPT 系列模型為代表的大語言模型（LLM）掀起了新一輪 AI 應用浪潮，但是 LLM 推理的高昂成本一直困擾著業務團隊。
騰訊 PCG 機器學習平臺中心自研了高性能 LLM 推理引擎：一念 LLM。在傳統的算子融合，ContinousBatching 等推理加速技術的基礎上，通過顯存優化，異步調度和計算復用等技術，在相同精度的推理中，一念 LLM 相比 vLLM，TensorRT-LLM 等著名開源框架的推理單價低 20%+。
另外，為了應對國外高端 GPU 卡供應不足的問題，一念 LLM 在高性能 LLM 推理框架領域第一次同時支持 Nvi

原文鏈接：騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源