AIGC動態歡迎閱讀
原標題:TensorRT-LLM保姆級教程(二)-離線環境搭建、模型量化及推理
關鍵字:模型,權重,引擎,參數,縮放
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
開講預約隨著大模型的爆火,投入到生產環境的模型參數量規模也變得越來越大(從數十億參數到千億參數規模),從而導致大模型的推理成本急劇增加。因此,市面上也出現了很多的推理框架,用于降低模型推理延遲以及提升模型吞吐量。
本系列將針對TensorRT-LLM推理進行講解。本文為該系列第二篇,將基于Bloom進行模型量化及推理。
01環境搭建基礎配置:
CUDA:12.2
鏡像:nvcr.io/nvidia/pytorch:23.10-py3
由于服務器無法訪問,只能預先準備好鏡像,安裝包、編譯源碼等,接下來準備安裝 TensorRT-LLM,推薦使用 Docker 構建和運行 TensorRT-LLM,整個安裝步驟參考 TensorRT-LLM 中構建 Docker 鏡像的步驟。
首先,進入Docker容器。
docker run -dt –name tensorrt_llm_lgd \–restart=always \–gpus all \–network=host \–shm-size=4g \-m 64G \-v /home/guodong.li/workspace:/wo
原文鏈接:TensorRT-LLM保姆級教程(二)-離線環境搭建、模型量化及推理
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...