Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量
關鍵字：模型,架構(gòu),吞吐量,上下文,長上
文章來源：機器之心
內(nèi)容字數(shù)：3684字

內(nèi)容摘要：

機器之心報道
編輯：小舟Mamba 時代來了？
自 2017 年開創(chuàng)性研究論文《Attention is All You Need》問世以來，transformer 架構(gòu)就一直主導著生成式人工智能領域。
然而，transformer 架構(gòu)實際上有兩個顯著缺點：
內(nèi)存占用大：Transformer 的內(nèi)存占用量隨上下文長度而變化。這使得在沒有大量硬件資源的情況下運行長上下文窗口或大量并行批處理變得具有挑戰(zhàn)性，從而限制了廣泛的實驗和部署。
隨著上下文長度的增加，推理速度會變慢：Transformer 的注意力機制隨序列長度呈二次方擴展，并且會降低吞吐量，因為每個 token 都依賴于它之前的整個序列，從而將長上下文用例置于高效生產(chǎn)的范圍之外。
但 transformer 并不是生成式人工智能唯一的前進方向。最近，AI21 Labs 推出并開源了一種名為「Jamba」的新方法，在多個基準上超越了 transformer。Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1Mamba 的 SSM 架構(gòu)可以很好地解決 transfo

原文鏈接：Attention isn’t all you need！Mamba混合大模型開源：三倍Transformer吞吐量