Meta探索大模型記憶層,擴(kuò)展至1280億個(gè)參數(shù),優(yōu)于MoE
讓記憶層超越概念驗(yàn)證。

原標(biāo)題:Meta探索大模型記憶層,擴(kuò)展至1280億個(gè)參數(shù),優(yōu)于MoE
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3544字
Meta 突破性研究:大規(guī)模語(yǔ)言模型中的記憶層
Meta 的一項(xiàng)最新研究顯著提升了大型語(yǔ)言模型 (LLM) 的性能,其核心在于引入了可擴(kuò)展的記憶層。這項(xiàng)研究證明了記憶層在 LLM 擴(kuò)展中的實(shí)用性,并超越了以往的概念驗(yàn)證階段。
1. 記憶層的優(yōu)勢(shì)與工作原理
傳統(tǒng)的密集深度神經(jīng)網(wǎng)絡(luò)將信息編碼為權(quán)重矩陣,參數(shù)規(guī)模的擴(kuò)張直接導(dǎo)致計(jì)算和能源消耗的增加。而記憶層則提供了一種更高效的方案。它使用可訓(xùn)練的鍵值查找機(jī)制,在不增加 FLOP 的情況下向模型添加額外的參數(shù)。記憶層以稀疏激活的方式補(bǔ)充密集前饋層,實(shí)現(xiàn)廉價(jià)的存儲(chǔ)和信息檢索。其工作原理類似于注意力機(jī)制,但鍵值對(duì)是可訓(xùn)練參數(shù),且規(guī)模更大,需要稀疏查詢和更新。
2. 擴(kuò)展記憶層的挑戰(zhàn)與解決方案
擴(kuò)展記憶層面臨著“查詢-鍵”檢索機(jī)制的瓶頸。簡(jiǎn)單的最近鄰搜索在大型記憶中效率低下。該研究采用可訓(xùn)練的“product-quantized”鍵來(lái)解決此問(wèn)題。為了應(yīng)對(duì)記憶密集型的問(wèn)題,研究人員在多個(gè) GPU 上并行化嵌入查找和聚合,并采用共享記憶參數(shù)池,最大化參數(shù)共享。
3. 記憶層的改進(jìn)與訓(xùn)練
研究人員通過(guò)引入具有 silu 非線性的輸入相關(guān)門控來(lái)提高記憶層的訓(xùn)練性能,從而改進(jìn)輸出結(jié)果。這種改進(jìn)的記憶層被稱為 Memory+。
4. 實(shí)驗(yàn)結(jié)果與性能提升
實(shí)驗(yàn)結(jié)果表明,Memory 模型顯著優(yōu)于密集基線模型,其性能與參數(shù)數(shù)量為其兩倍的密集模型相當(dāng)。Memory+ 模型的性能進(jìn)一步提升,甚至超過(guò)了計(jì)算能力高出其 2 到 4 倍的密集模型。與參數(shù)數(shù)量相當(dāng)?shù)膶<一旌?(MoE) 模型相比,Memory 變體也展現(xiàn)出顯著優(yōu)勢(shì)。在相同參數(shù)數(shù)量下,Memory+ 模型的性能隨著記憶大小的增加而持續(xù)提升。一個(gè)擁有 6400 萬(wàn)個(gè)鍵(1280 億個(gè)記憶參數(shù))的 1.3B Memory 模型,其性能甚至接近使用了 10 倍以上 FLOPs 的 Llama2 7B 模型。
5. 結(jié)論
Meta 的這項(xiàng)研究表明,經(jīng)過(guò)充分改進(jìn)和擴(kuò)展的記憶層可以有效增強(qiáng)密集神經(jīng)網(wǎng)絡(luò),帶來(lái)巨大的性能提升。這項(xiàng)技術(shù)在不同規(guī)模的模型中都展現(xiàn)出一致的優(yōu)勢(shì),為大型語(yǔ)言模型的未來(lái)發(fā)展提供了新的方向。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)