TensorRT-LLM保姆級教程（二）-離線環境搭建、模型量化及推理

AIGC動態歡迎閱讀

原標題：TensorRT-LLM保姆級教程（二）-離線環境搭建、模型量化及推理
關鍵字：模型,權重,引擎,參數,縮放
文章來源：智猩猩GenAI
內容字數：0字

內容摘要：

開講預約隨著大模型的爆火，投入到生產環境的模型參數量規模也變得越來越大（從數十億參數到千億參數規模），從而導致大模型的推理成本急劇增加。因此，市面上也出現了很多的推理框架，用于降低模型推理延遲以及提升模型吞吐量。
本系列將針對TensorRT-LLM推理進行講解。本文為該系列第二篇，將基于Bloom進行模型量化及推理。
01環境搭建基礎配置：
CUDA：12.2
鏡像：nvcr.io/nvidia/pytorch:23.10-py3
由于服務器無法訪問，只能預先準備好鏡像，安裝包、編譯源碼等，接下來準備安裝 TensorRT-LLM，推薦使用 Docker 構建和運行 TensorRT-LLM，整個安裝步驟參考 TensorRT-LLM 中構建 Docker 鏡像的步驟。
首先，進入Docker容器。
docker run -dt –name tensorrt_llm_lgd \–restart=always \–gpus all \–network=host \–shm-size=4g \-m 64G \-v /home/guodong.li/workspace:/wo

原文鏈接：TensorRT-LLM保姆級教程（二）-離線環境搭建、模型量化及推理

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 參數 # 引擎 # 權重 # 模型 # 縮放

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

TensorRT-LLM保姆級教程（二）-離線環境搭建、模型量化及推理

AIGC動態歡迎閱讀

內容摘要：

聯系作者

重磅！中科院自動化所開發基于內部復雜性的新型類腦網絡模型有望實現AGI

蘋果退出OpenAI新一輪融資/余承東稱「四界」底層技術都是華為把握/《黑神話：悟空》再次登頂 IGN年度游戲

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

TensorRT-LLM保姆級教程（二）-離線環境搭建、模型量化及推理

AIGC動態歡迎閱讀

內容摘要：

聯系作者

重磅！中科院自動化所 開發基于內部復雜性的新型類腦網絡模型有望實現AGI

蘋果退出OpenAI新一輪融資/余承東稱「四界」底層技術都是華為把握/《黑神話：悟空》再次登頂 IGN年度游戲

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

重磅！中科院自動化所開發基于內部復雜性的新型類腦網絡模型有望實現AGI