首個(gè)開源MoE大模型發(fā)布！7Bx8個(gè)專家，離GPT-4最近的一集

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：首個(gè)開源MoE大模型發(fā)布！7Bx8個(gè)專家，離GPT-4最近的一集

文章來源：量子位

內(nèi)容字?jǐn)?shù)：3370字

內(nèi)容摘要：夢(mèng)晨發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI“取消今晚所有計(jì)劃！”，許多AI開發(fā)者決定不睡了。只因首個(gè)開源MoE大模型剛剛由Mistral AI發(fā)布。MoE架構(gòu)全稱專家混合（Mixture-of-Experts），也就是傳聞中GPT-4采用的方案，可以說這是開源大模型離GPT-4最近的一集了。沒有發(fā)布會(huì)、沒有宣傳視頻，只靠一個(gè)磁力鏈接，就產(chǎn)生如此轟動(dòng)效果。具體參數(shù)還得是網(wǎng)速快的人下載完之后，從配置文件里截圖發(fā)出來的：7B參數(shù)x8個(gè)專家，對(duì)每個(gè)token選擇前兩個(gè)最相關(guān)的專家來處理。以至于OpenAI創(chuàng)始成員Karpathy都吐槽，是不是少了點(diǎn)什么？怎么缺了一個(gè)那種排練很多次的專業(yè)范視頻，大談特談AI變革啊。至于吐槽的是誰，懂得都懂了。以及他還解釋了為什么AI社區(qū)這幾天如此活躍：最大的深度學(xué)習(xí)會(huì)議NeurIPS即將在下周開啟。MoE，開源大模型新階段？為何這款開源MoE模型如此受關(guān)注？…

原文鏈接：點(diǎn)此閱讀原文：首個(gè)開源MoE大模型發(fā)布！7Bx8個(gè)專家，離GPT-4最近的一集