大模型MoE的前世今生,10個模型一文搞懂!

AIGC動態(tài)歡迎閱讀
原標題:大模型MoE的前世今生,10個模型一文搞懂!
關(guān)鍵字:模型,專家,效果,參數(shù),權(quán)重
文章來源:算法邦
內(nèi)容字數(shù):47863字
內(nèi)容摘要:
2024年3、4月這段時間,很多MoE模型扎堆發(fā)布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。
下面這個表格列出了部分近期發(fā)布的MoE工作MoE模型目前風(fēng)頭正勁,就連前不久小米汽車發(fā)布會上,雷總也弄了個多模態(tài)MoE大模型做汽車智能中控。相信今年接下來的這段時間,MoE還會給我們帶來更多的大新聞。
本篇將初步梳理MoE相關(guān)的一些經(jīng)典工作和幾個近期發(fā)布的中文MoE模型,從背景、思路和效果來了解MoE模型。
到文章發(fā)出的2024年4月為止,個人認為DeepSeek-MoE和Qwen1.5-MoE是中文領(lǐng)域做得比較好的兩個工作,趕時間的朋友可以優(yōu)先關(guān)注這兩個工作。
01時間線這里先對后面會涉及的MoE相關(guān)工作,大致按時間線梳理一下,也列出一些關(guān)鍵信息包括模型結(jié)構(gòu)、模型規(guī)模等。
(很多經(jīng)典的MoE工作都出自Google)
1.1.上古時代
首先是很多MoE相關(guān)論文都會引用的,發(fā)表在1991年的論文《Adaptive Mixtures of Local Experts》,這篇文章出自Geoffrey Hinton和Michael I. Jordan兩位大神之手。雖然在更早
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。

粵公網(wǎng)安備 44011502001135號