自注意力推理缺陷的奧秘,螞蟻自研新一代Transformer或?qū)崿F(xiàn)無損外推
AIGC動態(tài)歡迎閱讀
原標題:自注意力推理缺陷的奧秘,螞蟻自研新一代Transformer或?qū)崿F(xiàn)無損外推
文章來源:機器之心
內(nèi)容字數(shù):18272字
內(nèi)容摘要:機器之心專欄作者:螞蟻人工智能團隊隨著大語言模型的快速發(fā)展,其長度外推能力(length extrapolating)正日益受到研究者的關(guān)注。盡管這在 Transformer 誕生之初,被視為天然具備的能力,但隨著相關(guān)研究的深入,現(xiàn)實遠非如此。傳統(tǒng)的 Transformer 架構(gòu)在訓(xùn)練長度之外無一例外表現(xiàn)出糟糕的推理性能。研究人員逐漸意識到這一缺陷可能與位置編碼(position encoding…
原文鏈接:點此閱讀原文:自注意力推理缺陷的奧秘,螞蟻自研新一代Transformer或?qū)崿F(xiàn)無損外推
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...