AIGC動態歡迎閱讀
原標題:非Transformer架構站起來了!首個純無注意力大模型,超越開源巨頭Llama 3.1
關鍵字:模型,架構,數據,上下文,基準
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:杜偉、陳陳Mamba 架構的大模型又一次向 Transformer 發起了挑戰。Mamba 架構模型這次終于要「站」起來了?自 2023 年 12 月首次推出以來,Mamba 便成為了 Transformer 的強有力競爭對手。
此后,采用 Mamba 架構的模型不斷出現,比如 Mistral 發布的首個基于 Mamba 架構的開源大模型 Codestral 7B。
今天,阿布扎比技術創新研究所(TII)發布了一個新的開源 Mamba 模型 ——Falcon Mamba 7B。先來總結一波 Falcon Mamba 7B 的亮點:無需增加內存存儲,就可以處理任意長度的序列,并且能夠在單個 24GB A10 GPU 上運行。
目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B,這個僅用因果解碼器的模型采用了新穎的 Mamba 狀態空間語言模型(State Space Language Model, SSLM)架構來處理各種文本生成任務。
從結果來看,Falcon Mamba 7B 在一些基準上超越同尺寸級別的領先模型,包括 Meta 的
原文鏈接:非Transformer架構站起來了!首個純無注意力大模型,超越開源巨頭Llama 3.1
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...