手機(jī)流暢運(yùn)行470億大模型:上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2,提速29倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:手機(jī)流暢運(yùn)行470億大模型:上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2,提速29倍
關(guān)鍵字:神經(jīng)元,模型,手機(jī),內(nèi)存,權(quán)重
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI蘋果一出手,在手機(jī)等移動(dòng)設(shè)備上部署大模型不可避免地成為行業(yè)關(guān)注焦點(diǎn)。
然而,目前在移動(dòng)設(shè)備上運(yùn)行的模型相對(duì)較小(蘋果的是3B,谷歌的是2B),并且消耗大量內(nèi)存,這在很大程度上限制了其應(yīng)用場景。
即使是蘋果,目前也需要與OpenAI合作,通過將云端GPT-4o大模型嵌入到操作系統(tǒng)中來提供能力更強(qiáng)的服務(wù)。
這樣一來,蘋果的混合方案引起了非常多關(guān)于數(shù)據(jù)隱私的討論和爭議,甚至馬斯克都下場討論。
如果蘋果在操作系統(tǒng)層面集成OpenAI,那么蘋果設(shè)備將被禁止在我的公司使用。這是不可接受的安全違規(guī)行為。
既然終端側(cè)本地部署大模型的方案既讓手機(jī)用戶享受到AI強(qiáng)大的智能,又能保護(hù)好自己的隱私安全,為什么蘋果還要冒著隱私的風(fēng)險(xiǎn)選擇聯(lián)手OpenAI采用云端大模型呢?主要挑戰(zhàn)有兩點(diǎn):
手機(jī)內(nèi)存不夠大:按照大模型的Scaling Law法則,模型參數(shù)越大,能力對(duì)應(yīng)的也就越強(qiáng),這就意味著能力更強(qiáng)的模型對(duì)內(nèi)存的要求越高。
手機(jī)算力不夠強(qiáng):即使勉強(qiáng)把通過量化等手段把模型塞進(jìn)手機(jī)了,推理速度也慢,適合的應(yīng)用場景也就非常有限了。
為了解決上述挑戰(zhàn),上海交大IPADS實(shí)
原文鏈接:手機(jī)流暢運(yùn)行470億大模型:上交大發(fā)布LLM手機(jī)推理框架PowerInfer-2,提速29倍
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
