四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用
關(guān)鍵字：模型,文本,長度,窗口,能力
文章來源：量子位
內(nèi)容字數(shù)：3103字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI無需微調(diào)，只要四行代碼就能讓大模型窗口長度暴增，最高可增加3倍！
而且是“即插即用”，理論上可以適配任意大模型，目前已在Mistral和Llama2上試驗成功。
有了這項技術(shù)，大模型（LargeLM）就能搖身一變，成為LongLM。
近日，來自得克薩斯農(nóng)工大學等機構(gòu)的華人學者們發(fā)布了全新的大模型窗口擴展方法SelfExtended（簡稱SE）。
在Mistral上，研究者在24k長度的文本中隨機插入5位數(shù)字讓模型搜索，結(jié)果經(jīng)SE處理后，呈現(xiàn)出了全綠（通過）的測試結(jié)果。
而未經(jīng)處理的版本，在6k長度時就已經(jīng)開始“見紅”了。
GitHub Copilot主創(chuàng)Alex Graveley也激動地宣布，在Llama2上進行的實驗同樣取得了成功。
在網(wǎng)友的進一步詢問之下，Alex解釋了推文中“work”的具體含義：原先在4k長度時就會出現(xiàn)的噪聲，現(xiàn)在已經(jīng)消失了。
而對于SE窗口長度的極限，一位根據(jù)論文復現(xiàn)SE代碼的大佬表示，理論上（只要算力足夠）可以達到無限長。
那么，SE具體能達到什么樣的效果呢？
長文本能力顯著增強在窗口長度從4096增長到1

原文鏈接：四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用