GPT、Llama等大模型存在「逆轉(zhuǎn)詛咒」,這個(gè)bug該如何緩解?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT、Llama等大模型存在「逆轉(zhuǎn)詛咒」,這個(gè)bug該如何緩解?
關(guān)鍵字:模型,人名,數(shù)據(jù),位置,范式
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8747字
內(nèi)容摘要:機(jī)器之心專欄作者:呂昂,張凱翼,解曙方,涂權(quán),陳雨涵,文繼榮,嚴(yán)睿中國(guó)人民大學(xué)我們是否正在掉入中等智能陷阱?一個(gè)關(guān)于大語(yǔ)言模型 “逆轉(zhuǎn)詛咒” 的分析與緩解方法。來自中國(guó)人民大學(xué)的研究者將 Llama 等因果語(yǔ)言模型所遭遇的 “逆轉(zhuǎn)詛咒” 歸咎于 next-token prediction + causal language model 的本質(zhì)缺陷,并發(fā)現(xiàn) GLM 采用的自回歸填空的訓(xùn)練方法對(duì)這種 “逆轉(zhuǎn)詛咒” 顯示出更強(qiáng)的魯棒性。通過將雙向注意力機(jī)制引入 Llama 模型進(jìn)行微調(diào),該研究實(shí)現(xiàn)了對(duì) Llama 的 “逆轉(zhuǎn)詛咒” 的緩解。該研究認(rèn)為當(dāng)前主流的這種大模型結(jié)構(gòu)與訓(xùn)練范式存在著很多潛在的缺陷,希望有更多的研究者能夠在模型結(jié)構(gòu)或者預(yù)訓(xùn)練范式上進(jìn)行創(chuàng)新突破,以獲得更高的智能水平。論文地址:https://arxiv.org/pdf/2311.07468.pdf背景Lukas Berglu…
原文鏈接:點(diǎn)此閱讀原文:GPT、Llama等大模型存在「逆轉(zhuǎn)詛咒」,這個(gè)bug該如何緩解?
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)