四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用
AIGC動態(tài)歡迎閱讀
原標題:四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用
關(guān)鍵字:模型,文本,長度,窗口,能力
文章來源:量子位
內(nèi)容字數(shù):3103字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI無需微調(diào),只要四行代碼就能讓大模型窗口長度暴增,最高可增加3倍!
而且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗成功。
有了這項技術(shù),大模型(LargeLM)就能搖身一變,成為LongLM。
近日,來自得克薩斯農(nóng)工大學等機構(gòu)的華人學者們發(fā)布了全新的大模型窗口擴展方法SelfExtended(簡稱SE)。
在Mistral上,研究者在24k長度的文本中隨機插入5位數(shù)字讓模型搜索,結(jié)果經(jīng)SE處理后,呈現(xiàn)出了全綠(通過)的測試結(jié)果。
而未經(jīng)處理的版本,在6k長度時就已經(jīng)開始“見紅”了。
GitHub Copilot主創(chuàng)Alex Graveley也激動地宣布,在Llama2上進行的實驗同樣取得了成功。
在網(wǎng)友的進一步詢問之下,Alex解釋了推文中“work”的具體含義:原先在4k長度時就會出現(xiàn)的噪聲,現(xiàn)在已經(jīng)消失了。
而對于SE窗口長度的極限,一位根據(jù)論文復現(xiàn)SE代碼的大佬表示,理論上(只要算力足夠)可以達到無限長。
那么,SE具體能達到什么樣的效果呢?
長文本能力顯著增強在窗口長度從4096增長到1
原文鏈接:四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破