LSTM之父：我也是注意力之父！1991年就發表線性復雜度，遙遙領先Transformer 26年

AIGC動態1年前 (2024)發布新智元

新智元報道編輯：LRS【新智元導讀】Transformer模型自2017年問世以來，已成為AI領域的核心技術，尤其在自然語言處理中占據主導地位。然而，關于其核心機制“注意力”的起源，學界存在爭議，一些學者如Jürgen Schmidhuber主張自己更早提出了相關概念。當今AI屆的繁榮，很大程度上要歸功于Transformer模型，2017年的開山之作，把「注意力機制」（attention）帶入了大眾的視野，此后七年中，在AI模型中占據了絕對的主導地位，甚至Attention is All You Need這個名字都讓之后的論文在起標題時紛紛效仿，逐漸走向狂野。但「正統」注意力機制其實來源于2014年Bengio的論文，ACM還在圖靈獎頒獎時，為Bengio寫的貢獻為「引入了一種注意力機制，帶來了機器翻譯的突破，并形成了深度學習順序處理的關鍵組成部分」。論文鏈接：https://arxiv.org/pdf/1409.0473最近，Andrej Karpathy在社交媒體上公開了與第一作者Dzmitry兩年前的聯絡郵件，詳細敘述了這段發明注意力的故事，頓時又掀起網友熱議。不過，LSTM作者Jürgen Schmidhuber卻不認可這段故事，而是表明自己才是真正的創造者，1991年就已經提出線性復雜度Transformer，并且在兩年后提出術語「注意力」，他在2023年12月還發表過一篇報告，控訴圖靈獎三巨頭抄襲自己的研究成果。關于「Attention起源」的辯論進展火熱，仿佛現代AI完全構建在注意力機制的理論之上，關于Transformer、系統實現的重要性卻被忽視了。雖然Attention is All You Need論文的核心貢獻是引入Transformer神經網絡，刪除了除各種注意力機制之外的所有模塊，并且基本上只是將其與多層感知機堆疊在ResNe中，但其實論文中還是有相當多的貢獻和獨特想法，包括位置編碼、縮放注意力、多頭注意力、極簡設計等等，并且被廣為接受。即便是到了今天，業內普遍使用的模型架構仍然大體遵循2017年的原始版本，只是在部分模塊進行了簡單的修改，比如更好的位置編碼方案（RoPE家族）等等。谷歌杰出科學家、計算成像、機器學習和視覺領域的專家Peyman Milanfar說的很中肯：我——或者我認為任何成像領域的人——都不能合理地宣稱機器學習背景下的注意力概念有任何功勞。但記錄、追溯完整的歷史淵源是有價值的，如果不從更廣泛的角度來理解「依賴于數據的加權平均運算」的重要性和普遍性，那追溯的歷史也是不完整的。最極端的例子莫過于一位網友的評價，「其實，算術的出現要比這些論文都早。」「注意力」的起源故事2014年，故事的主角Dzmitry Bahdanau還只是一個在德國雅各布大學（Jakobs University）剛完成碩士一年級的學生，之后選擇在Yoshua Bengio（圖靈獎得主）的實驗室開始實習。當時他跟Yoshua表示干什么都行，然后Yoshua便讓他開始與Kyunghyun Cho的團隊合作開發機器翻譯模型。當時自然語言處理屆的主流思路是「把單詞序列轉為一個向量」，比如經典的word2vec都是當時常用的算法，但Dzmitry卻對這種想法表示懷疑，不過為了獲得博士的入學offer，他也只能聽從導師的話，從寫代碼、修復Bug等最基本的工作入手。逐步熟悉團隊的工作內容之后，Yoshua就對他發起了攻讀博士學位的邀請，當時AI屆還沒有現在這么卷，這些工作已經足以讓這位碩士生開始他的博士生涯了，Dzmitry至今仍表示慶幸、懷念。博士offer穩了之后，據Dzmitry的說法是，可以享受科研樂趣，并充分發揮自己的創造力了！Dzmitry開始思考如何避免RNN模型中Encoder和Decoder之間的信息瓶頸，第一個想法是建立一個帶有兩個「光標」（cursor）的模型：其中一個由BiRNN編碼，在源序列中移動；另一個在目標序列中移動；光標軌跡使用動態規劃進行邊際化。但Kyunghyun Cho認為這種做法和Alex Graves的RNN Transducer模型沒什么兩樣。讀完Graves的手寫識別論文后，Dzmitry也認可這種方法法對于機器翻譯來說不太合適，并且實習也只剩5周了，很難在短時間內完成代碼實現，所以就嘗試了更簡單的方法，讓兩個光標同時、同步移動，實際上相當于硬編碼的對角注意力（hard-coded diagonal attention）。這種方法雖說有點效果，但不夠優雅。某一天，Dzmitry受到了英語翻譯練習中的啟發，人類在翻譯時，目光會在源序列和目標序列之間來回移動，將軟搜索表示為softmax，然后對BiRNN狀態進行加權平均，就能讓Decorder RNN學會在源序列中搜索放置光標的位置。團隊把這個架構叫做RNNSearch，第一次嘗試效果就很好，只需要1個GPU就能運行。當時，谷歌的Ilya（OpenAI前首席科學家Ilya Sutskever）團隊使用8個GPU的LSTM模型在某些指標上仍然領先，所以團隊趕緊在ArXiV上發表了一篇論文。后來團隊發現，這個架構的名字其實并不好，Yoshua在最后的一次修改中確定了「注意力機制」，直觀地看，讓解碼器來決定源語句中的哪些部分需要受到關注，減輕了編碼器將源語句中的所有信息編碼為固定長度向量的負擔。通過這種新方法，信息可以分布在整個標注序列中，解碼器可以有選擇地進行檢索。一個半月后，團隊又看了Alex Graves發表的關于NMT論文，想法完全相同，但出發點完全不同。Dzmitry發明新算法是需求驅動的，Alex那邊或許是出于連接神經學派和符號學派的目的；Jason Weston團隊的Memory Networks論文也有類似的機制。Dzmitry表示沒有預見到注意力機制作為表征學習的核心算法，其實可以在更低的層次上使用。所以當Transformer論文發表時，Dzmitry就立刻跟實驗室的同事說，RNN已經死了。總之，在蒙特利爾Yoshua的實驗室中「可微且數據依賴的加權平均」（differentiable and data-dependent weighted average operation）的發明與神經圖靈機、Memory Networks以及90年代（甚至 70 年代）的一些相關認知科學論文無關，主要來源于Yoshua的領導，Kyunghyun Cho在管理由初級博士生和實習生組成的大型機器翻譯項目方面的出色技能，以及Dzmitry多年來在編程競賽中磨練出的創造力和編程技能。即使Dzmitry、Alex Graves和其他人當時沒有從事深度學習工作，這個想法也會由其他人發表出來。注意力機制只是深度學習中實現靈活空間連接的自然方式，只要GPU的運算速度足夠快，讓科研人員有動力并認真對待深度學習，就會自然而然出現。良好的研發工作可以為基礎技術的進步做出更多貢獻，而不是通常意義上、所謂「真正的」人工智能研究的花哨理論。九十年代的「注意力」機制正如Dzmitry所說，注意力機制其實就是模仿大腦的認知過程，在更遙遠的90年代，也是認知科學快速發展的時代，類似注意力機制的模型也早有研究。最早的「可微加權平均操作」甚至并不來源于機器學習領域，而是圖像處理中常用的「濾波器」（filter）。比如最著名的是1998年Tomasi和Manduchi的雙邊濾波器，以及1997年Smith和Brady提出的SUSAN濾波器；后面還出現過許多變體形式，包括2005年的Buades、Coll和Morel提出的非局部均值，以及2007年Peyman Milanfar提出的更通用的核回歸濾波器。論文鏈接：https://ieeexplore.ieee.org/abstract/document/4060955阿卜杜拉科技大學 (KAUST) 人工智能研究所所長、瑞士人工智能實驗室IDSIA科學主任、LSTM作者、現代人工智能之父Jürgen Schmidhube也參與到這場大戰之中。2023年12月，Jürgen就曾發布過一篇報告，控訴三位圖靈獎得主Bengio， Hinton和LeCun各有相關工作參考于他之前的工作，但并沒有標注引用，「抄襲」罪狀中，Bengio七條、Hinton六條、LeCun四條。報告鏈接：https://people.idsia.ch/~juergen/ai-priority-disputes.htmlJürgen在報告中指出，1991年3月，他就已經提出了所謂的具有「線性自注意力」的非歸一化線性Transformer（unnormalized linear Transformer with linearized self-attention），只不過當時的名字叫做「快速權重編程器」（Fast Weight Programmers）和「快速權重控制器」（Fast Weight Controllers），類似傳統計算機將存儲和控制分開的方式，以端到端可微分、自適應、完全神經的方法，只不過當時Key/Value被稱為From/To雖然名字不一樣，但兩個模型背后的數學原理大致相同。1991年發表的模型原理類似于：為了回答接收到的query，通過梯度下降來學習生成key和value的模式，對自身的某些部分進行重新編程，從而根據上下文將注意力引導到重要的事情上；現代Transformer也采用了同樣的原理。2021年，Jürgen在ICML上發表了一篇論文，進一步證明了二者的等價性。論文鏈接：https://arxiv.org/pdf/2102.11174在1991年，當時的計算成本比現在高出數百萬倍，所以計算效率很重要，Transformer的計算復雜度為二次方，所以無法擴大數據處理規模，而快速權重編程器的計算復雜度只有線性，據Jürgen所說，當年幾乎沒有期刊會接受二次縮放的神經網絡。1993年，Jürgen對線性Transformer進行循環擴展時，使用了術語「注意力」。論文鏈接：https://sferics.idsia.ch/pub/juergen/ratio.pdf正如文章開頭所說，Bengio團隊因注意力機制獲圖靈獎，之后的工作都以Bengio 2014年的論文作為注意力機制起源。Jürgen還表示，在2010年代，ACM所謂的關鍵「機器翻譯的突破」也不是Bengio的功勞，而是LSTM的功勞，在2016年極大地改進了Google 翻譯，甚至直到 2017 年，Facebook用戶每周還要進行300億次基于LSTM的翻譯請求。總之，技術起源的是是非非很難辯個清楚，拿出小板凳，理性吃瓜！參考資料：https://x.com/SchmidhuberAI/status/1864701357107634390

閱讀原文