AIGC動態歡迎閱讀
原標題:vLLM這一年的新特性以及后續規劃(總結版!)
關鍵字:模型,緩存,性能,前綴,內存
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
大會預告12月5日-6日,2024中國生成式AI大會(上海站)舉辦。將邀請50+位嘉賓圍繞大模型、AI Infra、端側生成式AI、AI視頻生成和具身智能等議題進行同臺分享和討論。歡迎報名或購票。本文來自The State of vLLM | Ray Summit 2024 && RoadMap的分享,帶大家一起回顧下vllm發展歷史、過去一年的發展及接下來Q4規劃。感興趣的也可以查看原視頻:https://www.youtube.com/watch?v=4HPRf9nDZ6Q[1]
01過去一年vLLM的工作內容記得vLLM在九月初更新了一個版本[2],性能有了明顯的提升(支持了multi step,因為減少了CPU overhead,會對吞吐會有提升,但是帶來的副作用是TTFT和ITL會變大),某些場景確實帶來了收益。
vLLM在2024年更新了很多內容~首先是模型支持,支持幾乎所有的llm和vlm模型且效率非常高,這點確實要比TRT-LLM支持更快更方便,涉及到底層改動支持的模型,TRT-LLM因為底層限制只能提個issue等官方支持。而vLLM就很方便,目前vLLM支持的模型有
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...