手機(jī)流暢運(yùn)行470億大模型：上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2，提速29倍

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：手機(jī)流暢運(yùn)行470億大模型：上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2，提速29倍
關(guān)鍵字：神經(jīng)元,模型,手機(jī),內(nèi)存,權(quán)重
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夢(mèng)晨發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI蘋果一出手，在手機(jī)等移動(dòng)設(shè)備上部署大模型不可避免地成為行業(yè)關(guān)注焦點(diǎn)。
然而，目前在移動(dòng)設(shè)備上運(yùn)行的模型相對(duì)較小（蘋果的是3B，谷歌的是2B），并且消耗大量內(nèi)存，這在很大程度上限制了其應(yīng)用場景。
即使是蘋果，目前也需要與OpenAI合作，通過將云端GPT-4o大模型嵌入到操作系統(tǒng)中來提供能力更強(qiáng)的服務(wù)。
這樣一來，蘋果的混合方案引起了非常多關(guān)于數(shù)據(jù)隱私的討論和爭議，甚至馬斯克都下場討論。
如果蘋果在操作系統(tǒng)層面集成OpenAI，那么蘋果設(shè)備將被禁止在我的公司使用。這是不可接受的安全違規(guī)行為。
既然終端側(cè)本地部署大模型的方案既讓手機(jī)用戶享受到AI強(qiáng)大的智能，又能保護(hù)好自己的隱私安全，為什么蘋果還要冒著隱私的風(fēng)險(xiǎn)選擇聯(lián)手OpenAI采用云端大模型呢？主要挑戰(zhàn)有兩點(diǎn)：
手機(jī)內(nèi)存不夠大：按照大模型的Scaling Law法則，模型參數(shù)越大，能力對(duì)應(yīng)的也就越強(qiáng)，這就意味著能力更強(qiáng)的模型對(duì)內(nèi)存的要求越高。
手機(jī)算力不夠強(qiáng)：即使勉強(qiáng)把通過量化等手段把模型塞進(jìn)手機(jī)了，推理速度也慢，適合的應(yīng)用場景也就非常有限了。
為了解決上述挑戰(zhàn)，上海交大IPADS實(shí)

原文鏈接：手機(jī)流暢運(yùn)行470億大模型：上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2，提速29倍