AIGC動態歡迎閱讀
原標題:LLM 推理框架之上:10 種常見 LLM 推理系統總結
關鍵字:模型,實例,集群,節點,作者
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京遼寧大廈盛大舉行。峰會設有開幕式、數據中心AI芯片專場、AI芯片架構創新專場、邊緣/端側AI芯片專場、智算集群技術論壇、Chiplet關鍵技術論壇、中國RISC-V計算芯片創新論壇。目前,終極議程已公布,50+位來自AI芯片、Chiplet、RISC-V、智算集群與AI Infra系統軟件等領域的嘉賓,將帶來報告、演講、高端對話和圓桌Panel。掃名或購票~01背景當前常見的 LLM 推理框架通常是在單模型、同構硬件資源、均勻流量分布和有限序列長度等條件下優化其 Serving 能力。在這種情況下,各種分布式并行方案、量化壓縮、算子優化、PagedAttention、Continuous Batching 等等技術可以充分發揮作用,提升服務吞吐量。然而,真實場景往往更加復雜,通常會包括以下幾種情況:
多種 LLM 模型:不同的大小的模型,比如,常見的 7B、13B、70B 甚至上百 B 模型;或者同等大小但應用于不同垂類場景的模型。
異構硬件環境:不同的 GPU 類型,推理 GPU 可能包含 T4、L4、A30、4090
原文鏈接:LLM 推理框架之上:10 種常見 LLM 推理系統總結
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...