評(píng)測(cè)超Llama2，混合專家模型（MoE）會(huì)是大模型新方向嗎？

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布 Founder Park

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：評(píng)測(cè)超Llama2，混合專家模型（MoE）會(huì)是大模型新方向嗎？
關(guān)鍵字：模型,專家,解讀,政策,門控
文章來(lái)源：Founder Park
內(nèi)容字?jǐn)?shù)：12970字

內(nèi)容摘要：

混合專家模型（MoE）成為最近關(guān)注的熱點(diǎn)。
先是 Reddit 上一篇關(guān)于 GPT-4 結(jié)構(gòu)的猜測(cè)帖，暗示了 GPT-4 可能是由 16 個(gè)子模塊組成的專家模型（MoE）的混合體。據(jù)說(shuō)，這 16 個(gè)子模塊中的每一個(gè) MoE 都有 1110 億個(gè)參數(shù)（作為參考，GPT-3 有 1750 億個(gè)參數(shù)）。盡管不能 100% 確定，但 GPT-4 是一個(gè) MoE 組成的集群這個(gè)事很可能是真的。
然后是法國(guó) AI 公司 MistralAI 發(fā)布了全球首個(gè)基于混合專家技術(shù)的大模型 Mistral-8x7B-MoE，是 8 個(gè) 70 億參數(shù)規(guī)模大模型的混合。
主要特點(diǎn)如下：
它可以非常優(yōu)雅地處理 32K 上下文數(shù)據(jù)；
除了英語(yǔ)外，在法語(yǔ)、德語(yǔ)、意大利語(yǔ)和西班牙語(yǔ)表現(xiàn)也很好；
在代碼能力上表現(xiàn)很強(qiáng)；
指令微調(diào)后 MT-Bench 的得分 8.3 分（GPT-3.5 是 8.32、LLaMA2 70B 是 6.86）；
Mistral-7B×8-MoE 是首個(gè)被證明有效的開源的 MoE LLM，相比于早期的 Switch Transformer、GLaM 等研究，Mistral-7B×8-MoE 證明了

原文鏈接：評(píng)測(cè)超Llama2，混合專家模型（MoE）會(huì)是大模型新方向嗎？