超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強架構(gòu) TTT
AIGC動態(tài)歡迎閱讀
原標題:超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強架構(gòu) TTT
關鍵字:模型,長上,上下文,狀態(tài),下文
文章來源:AI前線
內(nèi)容字數(shù):0字
內(nèi)容摘要:
作者 | 趙明華
近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人員提出了一種全新架構(gòu),用機器學習模型取代 RNN 的隱藏狀態(tài)。
圖 1 所有序列建模層都可以表示為一個根據(jù)更新規(guī)則轉(zhuǎn)換的隱藏狀態(tài)
這個模型通過對輸入 token 進行梯度下降來壓縮上下文,這種方法被稱為「測試時間訓練層(Test-Time-Training layers,TTT)」。該研究作者之一 Karan Dalal 表示,他相信這將根本性地改變語言模型方法。
自注意力機制在處理長上下文時表現(xiàn)良好,但其復雜度是二次的。現(xiàn)有的 RNN 層具有線性復雜度,但其在長上下文中的表現(xiàn)受限于其隱藏狀態(tài)的表達能力。隨著上下文長度的增加,成本也會越來越高。
作者提出了一種具有線性復雜度和表達能力強的隱藏狀態(tài)的新型序列建模層。關鍵思路是讓隱藏狀態(tài)本身成為一個機器學習模型,并將更新規(guī)則設為自監(jiān)督學習的一步。
圖 2,RNN 層與 TTT 層的關系
論文中提出了兩種實例:TTT-Linear 和 TTT-MLP,它們的隱藏狀態(tài)分別是線性模型和兩層 MLP。團隊在 125M 到 1.3B 參數(shù)規(guī)模上評估了實例,并與強大的 Tran
原文鏈接:超越 Transformer 與 Mamba,Meta 聯(lián)合斯坦福等高校推出最強架構(gòu) TTT
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。