Meta對(duì)Transformer架構(gòu)下手了:新注意力機(jī)制更懂推理
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Meta對(duì)Transformer架構(gòu)下手了:新注意力機(jī)制更懂推理
關(guān)鍵字:上下文,注意力,提示,變體,機(jī)制
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5038字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:杜偉、陳萍作者表示,這種全新注意力機(jī)制(Sytem 2 Attention)或許你也需要呢。大型語(yǔ)言模型(LLM)很強(qiáng)已經(jīng)是一個(gè)不爭(zhēng)的事實(shí),但它們有時(shí)仍然容易犯一些簡(jiǎn)單的錯(cuò)誤,表現(xiàn)出較弱的推理能力。舉個(gè)例子,LLM 可能會(huì)因不相關(guān)的上下文或者輸入提示中固有的偏好或意見(jiàn)做出錯(cuò)誤的判斷。后一種情況表現(xiàn)出的問(wèn)題被叫做「阿諛?lè)畛小梗茨P团c輸入保持一致。有沒(méi)有方法來(lái)緩解這類(lèi)問(wèn)題呢?有些學(xué)者試圖通過(guò)添加更多監(jiān)督訓(xùn)練數(shù)據(jù)或通過(guò)強(qiáng)化學(xué)習(xí)策略來(lái)解決,但這些無(wú)法從根本上解決問(wèn)題。近日 Meta 研究者在論文《System 2 Attention (is something you might need too)》中認(rèn)為,根本問(wèn)題在于 Transformer 本身固有的構(gòu)建方式,尤其是其注意力機(jī)制。也就是說(shuō),軟注意力既傾向于將概率分配給大部分上下文(包括不相關(guān)的部分),也傾向于過(guò)度關(guān)注重復(fù)的…
原文鏈接:點(diǎn)此閱讀原文:Meta對(duì)Transformer架構(gòu)下手了:新注意力機(jī)制更懂推理
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)


粵公網(wǎng)安備 44011502001135號(hào)