顛覆Transformer霸權(quán)!CMU普林斯頓推Mamba新架構(gòu),解決致命bug推理速度暴增5倍

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:顛覆Transformer霸權(quán)!CMU普林斯頓推Mamba新架構(gòu),解決致命bug推理速度暴增5倍
關(guān)鍵字:模型,序列,架構(gòu),卷積,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):15024字
內(nèi)容摘要:新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】誕生6的Transformer,霸主之位終于要被顛覆了?CMU、普林斯頓研究者發(fā)布的Mamba,解決了Transformer核心注意力層無(wú)法擴(kuò)展的致命bug,推理速度直接飆升了5倍!一個(gè)時(shí)代要結(jié)束了?深度學(xué)習(xí)進(jìn)入新紀(jì)元,Transformer的霸主地位,要被掀翻了?2017年6月12日橫空出世,讓NLP直接變天,制霸自然語(yǔ)言領(lǐng)域多年的Transformer,終于要被新的架構(gòu)打破壟斷了。Transformer雖強(qiáng)大,卻有一個(gè)致命的bug:核心注意力層無(wú)法擴(kuò)展到長(zhǎng)期上下文。剛剛,CMU和普林斯頓的研究者發(fā)布了Mamba。這種SSM架構(gòu)在語(yǔ)言建模上與Transformers不相上下,而且還能線性擴(kuò)展,同時(shí)具有5倍的推理吞吐量!論文地址:https://arxiv.org/abs/2312.00752論文一作Albert Gu表示,二次注意力對(duì)于信息密集型模…
原文鏈接:點(diǎn)此閱讀原文:顛覆Transformer霸權(quán)!CMU普林斯頓推Mamba新架構(gòu),解決致命bug推理速度暴增5倍
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)