LLM推理飆升25倍！蘋果超高效內存優化將大模型塞進iPhone，2秒視頻生成逼真3D化身

AIGC動態2年前 (2023)發布新智元

AIGC動態歡迎閱讀

原標題：LLM推理飆升25倍！蘋果超高效內存優化將大模型塞進iPhone，2秒視頻生成逼真3D化身
關鍵字：神經元,閃存,模型,數據,加載
文章來源：新智元
內容字數：6248字

內容摘要：

新智元報道編輯：alan
【新智元導讀】近日，蘋果兩篇論文，不僅能一鍵生成逼真的3D化身，而且還要把大模型裝進你的iPhone想不想在你的iPhone上本地運行GPT-4？
也許在不久的將來，這個幻想就會照進現實！
近日，蘋果發布了一篇深受業界矚目的文章，目的是探索在有限的內存中運行大語言模型。
論文地址：https://arxiv.org/pdf/2312.11514.pdf
蘋果通過軟硬件協同優化，使設備能夠支持運行的模型大小達到了自身DRAM的兩倍！
在這項技術的加持之下，LLM的推理速度在Apple M1 Max CPU上提高了4-5倍，在GPU上提高了20-25倍。
在上圖給出的LLM推理延遲的比較中，我們可以看到蘋果提出的方法效果相當出色。
而這些優化可能很快就可以讓復雜的AI助手，或者是機器人在iPhone、iPad和其他移動設備上流暢運行。
面對當下由生成式AI引領的，
多數人希望把模型做大做強，比如可能有萬億參數的GPT-4（OpenAI家的登月計劃更是夸張）；
另一部分人則在探索「小模型」的潛力，比如以7B參數打平70B Llama的Zephyr，以及

原文鏈接：LLM推理飆升25倍！蘋果超高效內存優化將大模型塞進iPhone，2秒視頻生成逼真3D化身