AIGC動態歡迎閱讀
原標題:vLLM vs TensorRT-LLM 性能對比測試,基于0910較新版本
關鍵字:吞吐量,騰訊,速率,框架,大小
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
大會預告12月5日-6日,2024中國生成式AI大會(上海站)將舉辦。上海科大助理教授、博導顧家遠,騰訊優圖實驗室天衍研究中心負責人吳賢,銀河通用機器人合伙人張直政,趣丸科技副總裁賈朔,曠視研究院高級研究員李華東已確認參會,將圍繞大模型、具身智能、AI視頻生成帶來分享,歡迎報名。翻譯自:https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-1-an-overall-evaluation-88f281bf01c7該文章測試了最新版(9.10)trt-llm和vllm的性能,不過文中沒有提到是否使用vllm在0.6.0版本更新的Multi-step Scheduling[1]。
vLLM 和 TensorRT-LLM 是我們熟知的大型語言模型(LLM)推理框架。**vLLM**[2] 是一個快速且易于使用的庫,支持在多種設備上進行 LLM 推理和服務,包括 NVIDIA、AMD 和 Intel 的 GPU。相對地,**TensorRT-LLM**[3] 是一個高度優化的工具箱,專門為加速 NVIDIA GPU 上的推理性
原文鏈接:vLLM vs TensorRT-LLM 性能對比測試,基于0910較新版本
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...