騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
關(guān)鍵字:華為,算子,騰訊,顯存,模型
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):16971字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者袁鐿博士是騰訊公司專家工程師,負(fù)責(zé)無量系統(tǒng)和一念LLM等機(jī)器學(xué)習(xí)訓(xùn)練和推理框架研發(fā)。
以 OpenAI 的 GPT 系列模型為代表的大語言模型(LLM)掀起了新一輪 AI 應(yīng)用浪潮,但是 LLM 推理的高昂成本一直困擾著業(yè)務(wù)團(tuán)隊(duì)。
騰訊 PCG 機(jī)器學(xué)習(xí)平臺(tái)中心自研了高性能 LLM 推理引擎:一念 LLM。在傳統(tǒng)的算子融合,ContinousBatching 等推理加速技術(shù)的基礎(chǔ)上,通過顯存優(yōu)化,異步調(diào)度和計(jì)算復(fù)用等技術(shù),在相同精度的推理中,一念 LLM 相比 vLLM,TensorRT-LLM 等著名開源框架的推理單價(jià)低 20%+。
另外,為了應(yīng)對(duì)國(guó)外高端 GPU 卡供應(yīng)不足的問題,一念 LLM 在高性能 LLM 推理框架領(lǐng)域第一次同時(shí)支持 Nvi
原文鏈接:騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)