田淵棟等人新作:突破內(nèi)存瓶頸,讓一塊4090預(yù)訓(xùn)練7B大模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:田淵棟等人新作:突破內(nèi)存瓶頸,讓一塊4090預(yù)訓(xùn)練7B大模型
關(guān)鍵字:報(bào)告,內(nèi)存,梯度,模型,研究者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5803字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍、大盤雞只用 24G 顯存,消費(fèi)級(jí) GPU 就能搞定大模型了。
上個(gè)月,Meta FAIR 田淵棟參與的一項(xiàng)研究廣受好評(píng),他們?cè)谡撐摹?MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中開始卷 10 億以下參數(shù)小模型,主打在移動(dòng)設(shè)備上運(yùn)行 LLM。
3 月 6 日,田淵棟又一項(xiàng)研究出爐,這次,他們主攻 LLM 內(nèi)存效率。除了田淵棟本人,還有來(lái)自加州理工學(xué)院、德克薩斯大學(xué)奧斯汀分校以及 CMU 的研究者。
他們合作提出了 GaLore(Gradient Low-Rank Projection),這是一種允許全參數(shù)學(xué)習(xí)的訓(xùn)練策略,但比 LoRA 等常見的低秩自適應(yīng)方法具有更高的內(nèi)存效率。
該研究首次證明了在具有 24GB 內(nèi)存的消費(fèi)級(jí) GPU(例如 NVIDIA RTX 4090)上預(yù)訓(xùn)練 7B 模型的可行性,無(wú)需模型并行、檢查點(diǎn)或卸載策略。論文地址:https://arxiv.org/abs/2403.03507
論文標(biāo)題:GaLore: Mem
原文鏈接:田淵棟等人新作:突破內(nèi)存瓶頸,讓一塊4090預(yù)訓(xùn)練7B大模型
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)