揭開視覺Mamba的秘密:清華與阿里聯(lián)手推出性MILA模型
在各種視覺任務(wù)中表現(xiàn)出超越現(xiàn)有的視覺Mamba模型的精度,同時保持了線性注意力優(yōu)越的并行計算與高推理速度。
原標(biāo)題:從線性注意力視角揭秘視覺Mamba,清華、阿里合作提出全新MILA模型
文章來源:機器之心
內(nèi)容字?jǐn)?shù):6662字
研究背景與意義
近年來,狀態(tài)空間模型(SSM)在有效序列建模中引起了廣泛關(guān)注,尤其是Mamba模型以線性計算復(fù)雜度實現(xiàn)了對輸入序列的高效建模。本文由清華大學(xué)自動化系的博士生韓東辰及其指導(dǎo)老師黃高副教授共同撰寫,探討了Mamba模型與線性注意力之間的內(nèi)在聯(lián)系,并提出了一種新的模型結(jié)構(gòu)MILA,旨在結(jié)合兩者的優(yōu)點,提升視覺任務(wù)的表現(xiàn)。
1. Mamba模型與線性注意力的關(guān)系
本文首先揭示了Mamba模型與線性注意力之間的深刻聯(lián)系。Mamba模型可以被視為具有特殊設(shè)計的線性注意力,包括輸入門、遺忘門、快捷連接、無注意力歸一化和單頭設(shè)計等。通過統(tǒng)一的公式表述,二者在核心操作上展現(xiàn)出相似性,這為后續(xù)研究提供了新的視角。
2. 實驗分析與結(jié)果
通過實驗證明,Mamba模型的成功主要歸因于其等效遺忘門和宏觀結(jié)構(gòu)設(shè)計。這些設(shè)計顯著提升了模型的性能,但遺忘門在視覺模型中可能導(dǎo)致推理速度的下降。為此,本文提出利用位置編碼來替代遺忘門,從而在保持全局感受野的同時,實現(xiàn)并行計算和快速推理。
3. MILA模型的提出
在對Mamba與線性注意力的分析基礎(chǔ)上,本文提出了Mamba-Inspired Linear Attention(MILA)模型。MILA融合了Mamba的設(shè)計思想,能夠以線性復(fù)雜度實現(xiàn)全局建模,并在多種視覺任務(wù)中優(yōu)于現(xiàn)有的視覺Mamba模型。實驗結(jié)果顯示,MILA在圖像分類和物體檢測等任務(wù)上表現(xiàn)出色,且推理速度更快。
4. 結(jié)論與未來展望
綜上所述,Mamba模型的特殊設(shè)計使其在性能上超越了線性注意力,而MILA模型則在此基礎(chǔ)上進一步優(yōu)化,適應(yīng)視覺任務(wù)的需求。未來的研究可以繼續(xù)探索狀態(tài)空間模型在其他領(lǐng)域的應(yīng)用潛力,推動高效模型架構(gòu)的設(shè)計與發(fā)展。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺