我們還需要Transformer中的注意力嗎?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:我們還需要Transformer中的注意力嗎?
關(guān)鍵字:模型,架構(gòu),注意力,矩陣,卷積
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):15431字
內(nèi)容摘要:
選自interconnects
作者:Nathan Lambert
機(jī)器之心編譯
機(jī)器之心編輯部狀態(tài)空間模型正在興起,注意力是否已到盡頭?最近幾周,AI 社區(qū)有一個(gè)熱門話題:用無(wú)注意力架構(gòu)來(lái)實(shí)現(xiàn)語(yǔ)言建模。簡(jiǎn)要來(lái)說(shuō),就是機(jī)器學(xué)習(xí)社區(qū)有一個(gè)長(zhǎng)期研究方向終于取得了實(shí)質(zhì)性的進(jìn)展,催生出 Mamba 兩個(gè)強(qiáng)大的新模型:Mamba 和 StripedHyena。它們?cè)诤芏喾矫娑寄鼙燃缛藗兪熘膹?qiáng)大模型,如 Llama 2 和 Mistral 7B。這個(gè)研究方向就是無(wú)注意力架構(gòu),現(xiàn)在也正有越來(lái)越多的研究者和開發(fā)者開始更嚴(yán)肅地看待它。
近日,機(jī)器學(xué)習(xí)科學(xué)家 Nathan Lambert 發(fā)布了一篇題為《狀態(tài)空間 LLM:我們需要注意力嗎?》的文章,詳細(xì)介紹了 2023 年無(wú)注意力模型的發(fā)展情況。他還表示:2024 年你將會(huì)有不同的語(yǔ)言模型架構(gòu)可選。需要說(shuō)明,這篇文章包含不少數(shù)學(xué)內(nèi)容,但深度理解它們是值得的。鑒于這篇文章較長(zhǎng),所以這里先列出分節(jié)目錄,以方便讀者索引:
引言:我們?yōu)槭裁纯赡懿⒉幌胧褂米⒁饬σ约笆裁词茄h(huán)神經(jīng)網(wǎng)絡(luò)。
Mamba 模型:這種新的狀態(tài)空間模型能為未來(lái)多種類別的語(yǔ)言模型提供功能和硬
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)