自注意力推理缺陷的奧秘,螞蟻?zhàn)匝行乱淮鶷ransformer或?qū)崿F(xiàn)無損外推
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:自注意力推理缺陷的奧秘,螞蟻?zhàn)匝行乱淮鶷ransformer或?qū)崿F(xiàn)無損外推
關(guān)鍵字:模型,位置,注意力,長(zhǎng)程,論文
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):18272字
內(nèi)容摘要:機(jī)器之心專欄作者:螞蟻人工智能團(tuán)隊(duì)隨著大語(yǔ)言模型的快速發(fā)展,其長(zhǎng)度外推能力(length extrapolating)正日益受到研究者的關(guān)注。盡管這在 Transformer 誕生之初,被視為天然具備的能力,但隨著相關(guān)研究的深入,現(xiàn)實(shí)遠(yuǎn)非如此。傳統(tǒng)的 Transformer 架構(gòu)在訓(xùn)練長(zhǎng)度之外無一例外表現(xiàn)出糟糕的推理性能。研究人員逐漸意識(shí)到這一缺陷可能與位置編碼(position encoding…
原文鏈接:點(diǎn)此閱讀原文:自注意力推理缺陷的奧秘,螞蟻?zhàn)匝行乱淮鶷ransformer或?qū)崿F(xiàn)無損外推
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...


粵公網(wǎng)安備 44011502001135號(hào)