CPU推理提升4到5倍，蘋果用閃存加速大模型推理，Siri 2.0要來了？

AIGC動態(tài)1年前 (2023)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：CPU推理提升4到5倍，蘋果用閃存加速大模型推理，Siri 2.0要來了？
關(guān)鍵字：閃存,模型,加載,數(shù)據(jù),神經(jīng)元
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：7396字

內(nèi)容摘要：

機器之心報道
編輯：杜偉、蛋醬蘋果這項新工作將為未來 iPhone 加入大模型的能力帶來無限想象力。近年來，GPT-3、OPT 和 PaLM 等大型語言模型（LLM）在廣泛的 NLP 任務(wù)中表現(xiàn)出了強大的性能。不過，這些能力伴隨著大量計算和內(nèi)存推理需求，畢竟大型語言模型可能包含數(shù)千億甚至萬億參數(shù)，使得高效加載和運行變得有挑戰(zhàn)性，尤其是在資源有限的設(shè)備上。
當(dāng)前標(biāo)準(zhǔn)的應(yīng)對方案是將整個模型加載到 DRAM 中進(jìn)行推理，然而這種做法嚴(yán)重限制了可以運行的最大模型尺寸。舉個例子，70 億參數(shù)的模型需要 14GB 以上的內(nèi)存才能加載半精度浮點格式的參數(shù)，這超出了大多數(shù)邊緣設(shè)備的能力。
為了解決這種局限性，蘋果的研究者提出在閃存中存儲模型參數(shù)，至少比 DRAM 大了一個數(shù)量級。接著在推理中，他們直接并巧妙地從閃存加載所需參數(shù)，不再需要將整個模型擬合到 DRAM 中。
這種方法基于最近的工作構(gòu)建，這些工作表明 LLM 在前饋網(wǎng)絡(luò)（FFN）層中表現(xiàn)出高度稀疏性，其中 OPT、Falcon 等模型的稀疏性更是超過 90%。因此，研究者利用這種稀疏性，有選擇地僅從閃存中加載具有非零輸入或預(yù)測具有非零輸出的

原文鏈接：CPU推理提升4到5倍，蘋果用閃存加速大模型推理，Siri 2.0要來了？