一條磁力鏈爆全網(wǎng),Mixtral 8x7B論文來(lái)了!碾壓Llama 2 70B,每token僅需激活13B參數(shù)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一條磁力鏈爆全網(wǎng),Mixtral 8x7B論文來(lái)了!碾壓Llama 2 70B,每token僅需激活13B參數(shù)
關(guān)鍵字:模型,專(zhuān)家,研究人員,樣本,報(bào)告
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):9053字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 好困
【新智元導(dǎo)讀】爆火社區(qū)的Mixtral 8x7B模型,今天終于放出了arXiv論文!所有模型細(xì)節(jié)全部公開(kāi)了。還記得一個(gè)月前,Mistral AI突然公布的一條磁力鏈接,引爆了整個(gè)AI社區(qū)。
緊接著,Mixtral 8x7B的技術(shù)細(xì)節(jié)隨之公布,其表現(xiàn)不僅優(yōu)于Llama 2 70B,而且推理速度提高了整整6倍。
甚至,它在大多數(shù)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上與GPT-3.5打平,甚至略勝一籌。
今天,這家法國(guó)初創(chuàng)正式發(fā)布了Mixtral 8x7B混合專(zhuān)家模型(Mixtral of Experts)的論文。
論文地址:https://arxiv.org/abs/2401.04088
網(wǎng)友紛紛表示,最好的開(kāi)源模型論文終于發(fā)布了。
具體技術(shù)細(xì)節(jié),我們一探究竟。
架構(gòu)Mixtral是一個(gè)稀疏的混合專(zhuān)家網(wǎng)絡(luò),而且是一個(gè)純解碼器模型。其中前饋塊從一組8個(gè)不同的參數(shù)組中進(jìn)行選擇。
在每一層,對(duì)于每個(gè)token,路由網(wǎng)絡(luò)都會(huì)選擇其中的兩個(gè)組「專(zhuān)家」來(lái)處理token,并將它們的輸出相加。
這項(xiàng)技術(shù)不僅增加了模型的參數(shù)數(shù)量,而且控制了成本和延遲,因?yàn)槟P兔刻幚硪粋€(gè)token只會(huì)使用部分參數(shù)。
具
原文鏈接:一條磁力鏈爆全網(wǎng),Mixtral 8x7B論文來(lái)了!碾壓Llama 2 70B,每token僅需激活13B參數(shù)
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)