非Transformer架構(gòu)站起來了！首個(gè)純無注意力大模型，超越開源巨頭Llama 3.1

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：非Transformer架構(gòu)站起來了！首個(gè)純無注意力大模型，超越開源巨頭Llama 3.1
關(guān)鍵字：模型,架構(gòu),數(shù)據(jù),上下文,基準(zhǔn)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：杜偉、陳陳Mamba 架構(gòu)的大模型又一次向 Transformer 發(fā)起了挑戰(zhàn)。Mamba 架構(gòu)模型這次終于要「站」起來了？自 2023 年 12 月首次推出以來，Mamba 便成為了 Transformer 的強(qiáng)有力競爭對(duì)手。
此后，采用 Mamba 架構(gòu)的模型不斷出現(xiàn)，比如 Mistral 發(fā)布的首個(gè)基于 Mamba 架構(gòu)的開源大模型 Codestral 7B。
今天，阿布扎比技術(shù)創(chuàng)新研究所（TII）發(fā)布了一個(gè)新的開源 Mamba 模型 ——Falcon Mamba 7B。先來總結(jié)一波 Falcon Mamba 7B 的亮點(diǎn)：無需增加內(nèi)存存儲(chǔ)，就可以處理任意長度的序列，并且能夠在單個(gè) 24GB A10 GPU 上運(yùn)行。
目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B，這個(gè)僅用因果解碼器的模型采用了新穎的 Mamba 狀態(tài)空間語言模型（State Space Language Model, SSLM）架構(gòu)來處理各種文本生成任務(wù)。
從結(jié)果來看，F(xiàn)alcon Mamba 7B 在一些基準(zhǔn)上超越同尺寸級(jí)別的領(lǐng)先模型，包括 Meta 的

原文鏈接：非Transformer架構(gòu)站起來了！首個(gè)純無注意力大模型，超越開源巨頭Llama 3.1