我們還需要Transformer中的注意力嗎？

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：我們還需要Transformer中的注意力嗎？
關鍵字：模型,架構,注意力,矩陣,卷積
文章來源：機器之心
內容字數：15431字

內容摘要：

選自interconnects
作者：Nathan Lambert
機器之心編譯
機器之心編輯部狀態空間模型正在興起，注意力是否已到盡頭？最近幾周，AI 社區有一個熱門話題：用無注意力架構來實現語言建模。簡要來說，就是機器學習社區有一個長期研究方向終于取得了實質性的進展，催生出 Mamba 兩個強大的新模型：Mamba 和 StripedHyena。它們在很多方面都能比肩人們熟知的強大模型，如 Llama 2 和 Mistral 7B。這個研究方向就是無注意力架構，現在也正有越來越多的研究者和開發者開始更嚴肅地看待它。
近日，機器學習科學家 Nathan Lambert 發布了一篇題為《狀態空間 LLM：我們需要注意力嗎？》的文章，詳細介紹了 2023 年無注意力模型的發展情況。他還表示：2024 年你將會有不同的語言模型架構可選。需要說明，這篇文章包含不少數學內容，但深度理解它們是值得的。鑒于這篇文章較長，所以這里先列出分節目錄，以方便讀者索引：
引言：我們為什么可能并不想使用注意力以及什么是循環神經網絡。
Mamba 模型：這種新的狀態空間模型能為未來多種類別的語言模型提供功能和硬

原文鏈接：我們還需要Transformer中的注意力嗎？