RNN模型挑戰(zhàn)Transformer霸權(quán)!1%成本性能比肩Mistral-7B,支持100+種語言全球最多

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:RNN模型挑戰(zhàn)Transformer霸權(quán)!1%成本性能比肩Mistral-7B,支持100+種語言全球最多
關(guān)鍵字:模型,架構(gòu),英語,語言,數(shù)據(jù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):5059字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】大模型內(nèi)卷時(shí)代,也不斷有人跳出來挑戰(zhàn)Transformer的統(tǒng)治地位,RWKV最新發(fā)布的Eagle 7B模型登頂了多語言基準(zhǔn)測(cè)試,同時(shí)成本降低了數(shù)十倍在大模型內(nèi)卷的同時(shí),Transformer的地位也接連受到挑戰(zhàn)。
近日,RWKV發(fā)布了Eagle 7B模型,基于最新的RWKV-v5架構(gòu)。
Eagle 7B在多語言基準(zhǔn)測(cè)試中,擊敗了所有的同級(jí)別模型,在單獨(dú)的英語測(cè)試中,也和表現(xiàn)最好的模型基本打平。
同時(shí),Eagle 7B用的是RNN架構(gòu),相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以說是世界上最環(huán)保的7B模型。
由于RWKV-v5的論文可能要下個(gè)月才能發(fā)布,這里先奉上RWKV的論文,——也是第一個(gè)擴(kuò)展到數(shù)百億參數(shù)的非Transformer架構(gòu)。
論文地址:https://arxiv.org/pdf/2305.13048.pdf
這篇工作已被EMNLP 2023錄用,我們可以看到論文的作者來自不同國家的頂尖高校、研究機(jī)構(gòu)以及科技公司。
下面是Eagle 7B的官圖,表示這只老鷹正在飛躍變形金剛。
Eagle 7BE
原文鏈接:RNN模型挑戰(zhàn)Transformer霸權(quán)!1%成本性能比肩Mistral-7B,支持100+種語言全球最多
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)