MoE 高效訓(xùn)練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:MoE 高效訓(xùn)練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
關(guān)鍵字:模型,架構(gòu),參數(shù),報(bào)告,高效
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):13708字
內(nèi)容摘要:
在高效訓(xùn)練與高顯存占用之間橫跳的 MoE,更像是一門妥協(xié)的藝術(shù)。作者|房曉楠
編輯|陳彩嫻
MoE 會(huì)成為未來(lái)大模型訓(xùn)練的新方向嗎?
這是人們發(fā)現(xiàn) MoE 架構(gòu)可以用于大模型訓(xùn)練、推理后,發(fā)出的一聲疑問(wèn)。
MoE(Mixture of Experts),又稱「混合專家」,本質(zhì)是一種模塊化的稀疏激活。怎么理解?
當(dāng)前的大模型主要分為稠密(dense)模型與稀疏(sparse)模型,兩者的區(qū)別主要在于模型進(jìn)行計(jì)算時(shí),被調(diào)用的參數(shù)數(shù)量,參數(shù)全部生效使用的是稠密模型,比如 OpenAI 從第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分參數(shù)的是稀疏模型,比如基于 MoE 架構(gòu)的模型,而這些被使用的參數(shù)稱為「激活參數(shù)」。
具體從網(wǎng)絡(luò)結(jié)構(gòu)來(lái)看,目前主流的大模型大都是基于 Transformer 架構(gòu),由多個(gè) Transformer Block 疊加組成,在每一個(gè) Transformer Block 內(nèi)部都會(huì)包括兩層結(jié)構(gòu),一層是多頭自注意力(Multi-Head Self-Attention),另一層是位置前饋神經(jīng)網(wǎng)絡(luò)(Po
原文鏈接:MoE 高效訓(xùn)練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

粵公網(wǎng)安備 44011502001135號(hào)