2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
AIGC動態(tài)歡迎閱讀
原標(biāo)題:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
關(guān)鍵字:神經(jīng)元,模型,速度,局部性,路由
文章來源:量子位
內(nèi)容字?jǐn)?shù):7617字
內(nèi)容摘要:
上交大IPADS實(shí)驗(yàn)室 投稿量子位 | 公眾號 QbitAI原本需要一張16萬元的80G A100干的活,現(xiàn)在只需要一張不到2萬元的24G 4090就夠了!
上海交大IPADS實(shí)驗(yàn)室推出的開源推理框架PowerInfer,讓大模型推理速度加快了11倍。
而且不用量化,就用FP16精度,也能讓40B模型在個(gè)人電腦上運(yùn)行;如果加入量化,2080 Ti也能流暢運(yùn)行70B模型。
結(jié)合大模型的獨(dú)特特征,通過CPU與GPU間的混合計(jì)算,PowerInfer能夠在顯存有限的個(gè)人電腦上實(shí)現(xiàn)快速推理。
相比于llama.cpp,PowerInfer實(shí)現(xiàn)了高達(dá)11倍的加速,讓40B模型也能在個(gè)人電腦上一秒能輸出十個(gè)token。
我們最熟悉的ChatGPT,一方面有時(shí)會因?yàn)樵L問量過大而宕機(jī),另一方面也存在數(shù)據(jù)安全問題。
開源模型能較好地解決這兩個(gè)問題,但如果沒有高性能的顯卡,運(yùn)行速度往往十分感人:
而PowerInfer的出現(xiàn),剛好解決了這個(gè)痛點(diǎn)。
PowerInfer一經(jīng)發(fā)布就引起熱烈反響,不到24小時(shí)就獲得了500+星標(biāo),其中還有一顆來自llama.cpp的作者Gerganov。
目前,PowerInf
原文鏈接:2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破