評(píng)測(cè)超Llama2,混合專家模型(MoE)會(huì)是大模型新方向嗎?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:評(píng)測(cè)超Llama2,混合專家模型(MoE)會(huì)是大模型新方向嗎?
關(guān)鍵字:模型,專家,解讀,政策,門控
文章來(lái)源:Founder Park
內(nèi)容字?jǐn)?shù):12970字
內(nèi)容摘要:
混合專家模型(MoE)成為最近關(guān)注的熱點(diǎn)。
先是 Reddit 上一篇關(guān)于 GPT-4 結(jié)構(gòu)的猜測(cè)帖,暗示了 GPT-4 可能是由 16 個(gè)子模塊組成的專家模型(MoE)的混合體。據(jù)說(shuō),這 16 個(gè)子模塊中的每一個(gè) MoE 都有 1110 億個(gè)參數(shù)(作為參考,GPT-3 有 1750 億個(gè)參數(shù))。盡管不能 100% 確定,但 GPT-4 是一個(gè) MoE 組成的集群這個(gè)事很可能是真的。
然后是法國(guó) AI 公司 MistralAI 發(fā)布了全球首個(gè)基于混合專家技術(shù)的大模型 Mistral-8x7B-MoE,是 8 個(gè) 70 億參數(shù)規(guī)模大模型的混合。
主要特點(diǎn)如下:
它可以非常優(yōu)雅地處理 32K 上下文數(shù)據(jù);
除了英語(yǔ)外,在法語(yǔ)、德語(yǔ)、意大利語(yǔ)和西班牙語(yǔ)表現(xiàn)也很好;
在代碼能力上表現(xiàn)很強(qiáng);
指令微調(diào)后 MT-Bench 的得分 8.3 分(GPT-3.5 是 8.32、LLaMA2 70B 是 6.86);
Mistral-7B×8-MoE 是首個(gè)被證明有效的開源的 MoE LLM,相比于早期的 Switch Transformer、GLaM 等研究,Mistral-7B×8-MoE 證明了
原文鏈接:評(píng)測(cè)超Llama2,混合專家模型(MoE)會(huì)是大模型新方向嗎?
聯(lián)系作者
文章來(lái)源:Founder Park
作者微信:Founder-Park
作者簡(jiǎn)介:來(lái)自極客公園,專注與科技創(chuàng)業(yè)者聊「真問(wèn)題」。