ICLR 2025 | 極性感知線性注意力!哈工深張正團隊提出PolaFormer視覺基礎模型
本文提出的線性注意力模塊可以直接替換現(xiàn)有Vision Transformer框架中,并在視覺基礎任務和LRA任務上一致地提升了性能。
原標題:ICLR 2025 | 極性感知線性注意力!哈工深張正團隊提出PolaFormer視覺基礎模型
文章來源:機器之心
內(nèi)容字數(shù):6926字
PolaFormer: 提升視覺Transformer效率與性能的極性感知線性注意力
本文介紹了哈爾濱工業(yè)大學(深圳)與鵬城實驗室的研究成果PolaFormer,一種新型高效的Vision Transformer,它通過引入極性感知線性注意力機制,在保持線性復雜度的同時顯著提升了模型的性能。
1. Vision Transformer的效率瓶頸
Vision Transformer及其變體在視覺任務中表現(xiàn)出色,但其核心模塊——自注意力機制的O(N2)復雜度限制了其在處理長序列或高分辨率圖像時的效率。線性注意力機制通過核函數(shù)替換softmax函數(shù),將復雜度降低為O(N),但其表達能力通常不如基于softmax的注意力。
2. PolaFormer的核心改進
PolaFormer主要解決了現(xiàn)有線性注意力機制的兩個不足:負值丟失和注意力分布高信息熵。
- 極性感知注意力:針對負值丟失問題,PolaFormer將query和key向量分解為正部和負部,分別計算正相似度和負相似度,從而保留了所有元素的交互信息,增強了模型的表達能力。
- 可學習冪函數(shù):針對高信息熵問題,PolaFormer從理論上證明了一族具有特殊性質(zhì)的映射函數(shù)可以有效降低注意力權重分布的信息熵,并采用可學習的冪函數(shù)來實現(xiàn)這一目標,從而提高模型區(qū)分強弱響應的能力。
PolaFormer通過以上兩點改進,有效彌合了線性注意力和基于softmax的注意力之間的性能差距。
3. 實驗結(jié)果與結(jié)論
實驗結(jié)果表明,PolaFormer在圖像分類、目標檢測、實例分割和語義分割等視覺任務以及LRA任務上都取得了顯著的性能提升,并優(yōu)于其他線性注意力模型。PolaFormer可以直接替換現(xiàn)有Vision Transformer框架中的自注意力模塊,具有良好的實用性。
4. 主要貢獻總結(jié)
PolaFormer的主要貢獻包括:
- 提出極性感知線性注意力,解決了現(xiàn)有線性注意力機制忽略負值的問題。
- 理論上證明并采用可學習的冪函數(shù)來降低注意力分布的信息熵。
- 在多個視覺任務和LRA任務上取得了優(yōu)異的性能。
PolaFormer為高效Vision Transformer的設計提供了一種新的思路,為其在資源受限環(huán)境下的應用提供了有力支撐。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...