中國最大開源MoE模型,255B參數(shù)無條件免費商用,元象發(fā)布
AIGC動態(tài)歡迎閱讀
原標(biāo)題:中國最大開源MoE模型,255B參數(shù)無條件免費商用,元象發(fā)布
關(guān)鍵字:騰訊,模型,專家,數(shù)據(jù),權(quán)重
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAI元象XVERSE發(fā)布中國最大MoE開源模型:
XVERSE-MoE-A36B,該模型總參數(shù)255B,激活參數(shù)36B,達(dá)到100B模型性能的「跨級」躍升。
同時訓(xùn)練時間減少30%,推理性能提升100%,使每token成本大幅下降。
在多個權(quán)威評測中,元象MoE效果大幅超越多個同類模型。
包括國內(nèi)千億MoE模型 Skywork-MoE、傳統(tǒng)MoE霸主Mixtral-8x22B 以及3140億參數(shù)的MoE開源模型Grok-1-A86B等。
MoE(Mixture of Experts)是業(yè)界最前沿的混合專家模型架構(gòu) ,將多個細(xì)分領(lǐng)域的專家模型組合成一個超級模型,打破了傳統(tǒng)擴(kuò)展定律(Scaling Law)的局限,可在擴(kuò)大模型規(guī)模時,不顯著增加訓(xùn)練和推理的計算成本,保持模型性能最大化。
出于這個原因,行業(yè)前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、馬斯克旗下xAI公司的Grok等大模型都使用了 MoE。
值得一提的是,元象「高性能全家桶」系列全部開源,無條件免費商用,讓海量中小企業(yè)、研究者和開發(fā)者能按需選擇。
中國最大Mo
原文鏈接:中國最大開源MoE模型,255B參數(shù)無條件免費商用,元象發(fā)布
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: