北大發(fā)現(xiàn)了一種特殊類型的注意力頭!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:北大發(fā)現(xiàn)了一種特殊類型的注意力頭!
關(guān)鍵字:模型,屏蔽,研究人員,幻覺,上下文
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):5520字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 任同學(xué)檢索頭的發(fā)現(xiàn)或許將有力地幫助大模型領(lǐng)域在提高長(zhǎng)上下文推理能力、減少幻覺和壓縮KV緩存方面的研究。
從 Claude100K 到 Gemini10M,我們正處于長(zhǎng)上下文語言模型的時(shí)代。如何在長(zhǎng)上下文中利用任何輸入位置的信息?北大聯(lián)合另外四所高校發(fā)現(xiàn)了一種特殊類型的、負(fù)責(zé)從長(zhǎng)上下文中進(jìn)行檢索的注意力頭。
研究人員對(duì)4個(gè)模型族、6個(gè)模型尺度和3種微調(diào)類型的系統(tǒng)調(diào)查表明,存在一種特殊類型的注意力頭(稱之為檢索頭),它主要負(fù)責(zé)從長(zhǎng)上下文中檢索相關(guān)信息。
研究人員發(fā)現(xiàn)了檢索頭具有一些重要和有趣的性質(zhì):
通用性:所有具有長(zhǎng)上下文能力的探索模型都有一組檢索頭;
稀疏性:只有一小部分(小于5%)的注意頭是檢索頭;
內(nèi)在性:檢索頭在短上下文預(yù)訓(xùn)練的模型中已經(jīng)存在。當(dāng)將上下文長(zhǎng)度擴(kuò)展到32-128K時(shí),仍然是同一組注意力頭執(zhí)行信息檢索;
動(dòng)態(tài)激活:以 Llama-27B 為例,無論上下文如何變化,12個(gè)檢索頭始終關(guān)注所需信息。其余的檢索頭在不同的環(huán)境中被激活;
因果關(guān)系:完全修剪檢索頭導(dǎo)致檢索相關(guān)信息失敗,產(chǎn)生幻覺,而修剪隨機(jī)的非檢索頭不影響模型的檢索能力。
由于檢索頭用于
原文鏈接:北大發(fā)現(xiàn)了一種特殊類型的注意力頭!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189