首個國產開源MoE大模型來了!性能媲美Llama 2-7B,計算量降低60%
AIGC動態(tài)歡迎閱讀
原標題:首個國產開源MoE大模型來了!性能媲美Llama 2-7B,計算量降低60%
關鍵字:模型,專家,參數(shù),版本,團隊
文章來源:量子位
內容字數(shù):2852字
內容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI開源MoE模型,終于迎來首位國產選手!
它的表現(xiàn)完全不輸給密集的Llama 2-7B模型,計算量卻僅有40%。
這個模型堪稱19邊形戰(zhàn)士,特別是在數(shù)學和代碼能力上對Llama形成了碾壓。
它就是深度求索團隊最新開源的160億參數(shù)專家模型DeepSeek MoE。
除了性能上表現(xiàn)優(yōu)異,DeepSeek MoE主打的就是節(jié)約計算量。
在這張表現(xiàn)-激活參數(shù)量圖中,它“一枝獨秀”地占據(jù)了左上角的大片空白區(qū)。
發(fā)布僅一天,DeepSeek團隊在X上的推文就有大量轉發(fā)關注。
JP摩根的機器學習工程師Maxime Labonne測試后也表示,DeepSeek MoE的chat版本表現(xiàn)要略勝于微軟的“小模型”Phi-2。
同時,DeepSeek MoE還在GitHub上獲得了300+星標,并登上了Hugging Face文本生成類模型排行榜的首頁。
那么,DeepSeek MoE的具體表現(xiàn)究竟怎么樣呢?
計算量減少60%DeepSeek MoE目前推出的版本參數(shù)量為160億,實際激活參數(shù)量大約是28億。
與自家的7B密集模型相比,二者在19個數(shù)據(jù)集上
原文鏈接:首個國產開源MoE大模型來了!性能媲美Llama 2-7B,計算量降低60%
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破