萬字綜述大模型高效推理:無問芯穹與清華、上交最新聯(lián)合研究全面解析大模型推理優(yōu)化
AIGC動態(tài)歡迎閱讀
原標(biāo)題:萬字綜述大模型高效推理:無問芯穹與清華、上交最新聯(lián)合研究全面解析大模型推理優(yōu)化
關(guān)鍵字:模型,技術(shù),語言,高效,算子
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心發(fā)布
作者:寧雪妃、周紫軒(無問芯穹TechView)近年來,大語言模型(Large Language Models, LLMs)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,得益于其在各種語言生成任務(wù)上的出色表現(xiàn),大語言模型推動了各種人工智能應(yīng)用(例如ChatGPT、Copilot等)的發(fā)展。然而,大語言模型的落地應(yīng)用受到其較大的推理開銷的限制,對部署資源、用戶體驗、經(jīng)濟成本都帶來了巨大挑戰(zhàn)。例如,將包含700億參數(shù)量的LLaMA-2-70B模型進行部署推理,至少需要6張RTX 3090Ti顯卡或2張NVIDIA A100顯卡,以部署在A100顯卡上為例,該模型生成512長度的詞塊(token)序列需要耗時超過50秒。
許多研究工作致力于設(shè)計優(yōu)化大語言模型推理開銷的技術(shù),優(yōu)化模型的推理延遲、吞吐、功耗和存儲等指標(biāo),成為許多研究的重要目標(biāo)。為了對這些優(yōu)化技術(shù)有更全面、更系統(tǒng)的認知,為大語言模型的部署實踐和未來研究提供建議和指南,來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團隊對大語言模型的高效推理技術(shù)進行了一次全面的調(diào)研和整理,在《A Survey on Efficient Infer
原文鏈接:萬字綜述大模型高效推理:無問芯穹與清華、上交最新聯(lián)合研究全面解析大模型推理優(yōu)化
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺