AIGC動態歡迎閱讀
原標題:MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
關鍵字:模型,架構,參數,報告,高效
文章來源:AI科技評論
內容字數:13708字
內容摘要:
在高效訓練與高顯存占用之間橫跳的 MoE,更像是一門妥協的藝術。作者|房曉楠
編輯|陳彩嫻
MoE 會成為未來大模型訓練的新方向嗎?
這是人們發現 MoE 架構可以用于大模型訓練、推理后,發出的一聲疑問。
MoE(Mixture of Experts),又稱「混合專家」,本質是一種模塊化的稀疏激活。怎么理解?
當前的大模型主要分為稠密(dense)模型與稀疏(sparse)模型,兩者的區別主要在于模型進行計算時,被調用的參數數量,參數全部生效使用的是稠密模型,比如 OpenAI 從第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分參數的是稀疏模型,比如基于 MoE 架構的模型,而這些被使用的參數稱為「激活參數」。
具體從網絡結構來看,目前主流的大模型大都是基于 Transformer 架構,由多個 Transformer Block 疊加組成,在每一個 Transformer Block 內部都會包括兩層結構,一層是多頭自注意力(Multi-Head Self-Attention),另一層是位置前饋神經網絡(Po
原文鏈接:MoE 高效訓練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
聯系作者
文章來源:AI科技評論
作者微信:aitechtalk
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...