NeurIPS 2024 | Transformer長度外推,全新位置編碼DAPE大幅提升模型性能
AIGC動態(tài)歡迎閱讀
原標題:NeurIPS 2024 | Transformer長度外推,全新位置編碼DAPE大幅提升模型性能
關(guān)鍵字:位置,長度,模型,注意力,語義
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本篇論文已被NeurIPS 2024接收,論文第一作者鄭傳陽來自香港中文大學,共同作者包括新加波國立大學高伊杭,諾亞實驗室石涵、任曉哲、蔣欣、李震國,香港中文大學 黃敏斌、 李靖瑤,香港大學熊璟,香港浸會大學吳國寶,香港中文大學李煜
在當今的人工智能領(lǐng)域,Transformer 模型已成為解決諸多自然語言處理任務(wù)的核心。然而,Transformer 模型在處理長文本時常常遇到性能瓶頸。傳統(tǒng)的位置編碼方法,如絕對位置編碼(APE)和相對位置編碼(RPE),雖然在許多任務(wù)中表現(xiàn)良好,但其固定性限制了其在處理超長文本時的適應性和靈活性。
為了應對這一挑戰(zhàn),提出了一種全新的位置編碼方法:Data-Adaptive Positional Encoding(DAPE)。D
原文鏈接:NeurIPS 2024 | Transformer長度外推,全新位置編碼DAPE大幅提升模型性能
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介: