AIGC動態歡迎閱讀
原標題:這篇論文非常火!差分Transformer竟能消除注意力噪聲,猶如降噪耳機
關鍵字:報告,注意力,上下文,模型,團隊
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:PandaTransformer 的強大實力已經在諸多大型語言模型(LLM)上得到了證明,但該架構遠非完美,也有很多研究者致力于改進這一架構,比如機器之心曾報道過的 Reformer 和 Infini-Transformer。
今天我們又將介紹另一種新型 Transformer 架構:Differential Transformer(差分 Transformer,簡稱 Diff Transformer)。該架構來自微軟研究院和清華大學,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。論文標題:Differential Transformer
論文地址:https://arxiv.org/pdf/2410.05258
在 Hacker News 及 Twitter 等社交網絡上,該論文都反響熱烈,有網友表示差分 Transformer 提出的改進簡單又美麗,而帶來的提升又非常顯著。甚至已有開發者做出了差分 Transformer 的輕量實現!差分 Transformer 的輕量實現,https://github.com/
原文鏈接:這篇論文非常火!差分Transformer竟能消除注意力噪聲,猶如降噪耳機
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...