打亂/跳過Transformer層會怎樣？最新研究揭開其信息流動機制，一口氣解答8大問題

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：打亂/跳過Transformer層會怎樣？最新研究揭開其信息流動機制，一口氣解答8大問題
關鍵字：中間層,順序,模型,表征,研究人員
文章來源：量子位
內容字數：0字

內容摘要：

西風發自凹非寺量子位 | 公眾號 QbitAITransformer中的信息流動機制，被最新研究揭開了：
所有層都是必要的嗎？中間層在做同樣的事嗎？層的順序重要嗎？
如果跳過一些層，比如第4層輸出接到第6層會怎樣。隨亂層的順序，比如4-6-5-7又會怎樣。
最近一項名為“Transformer Layers as Painters”的研究火了，由來自AI初創公司Sakana AI、Emergence AI的研究團隊完成。
他們從Transformer內部工作原理出發，經過一系列實驗對以上問題得出了結論。團隊表示深入理解這些原理不僅能提高現有模型利用效率，還能幫助改進架構開發新的變體。
谷歌DeepMind研究員、ViT作者Lucas Beyer看過后直接點了個贊：
很棒的總結！盡管一些實驗在之前的研究中已經被展示過了，但我喜歡你添加的新細節，特別是強調了“推理”類任務比其他任務受影響更大！
還有不少學者、工程師也表示強烈推薦。
敢打賭，其中一些見解最終將會用于改進Transformer。
其中的實驗再次證實了：復制層對創造性任務有幫助，但對推理任務通常無效；改變層的順序行不通；

原文鏈接：打亂/跳過Transformer層會怎樣？最新研究揭開其信息流動機制，一口氣解答8大問題