AIGC動態歡迎閱讀
原標題:匿名論文提出奇招!增強大模型長文本能力居然還能這么做
關鍵字:文本,模型,上下文,模塊,作者
文章來源:量子位
內容字數:5062字
內容摘要:
豐色 發自 凹非寺量子位 | 公眾號 QbitAI一提到提高大模型長文本能力,就想到長度外推或者上下文窗口擴展?
不行,這些都太費硬件資源了。
來看一個奇妙新解:
和長度外推等方法使用KV緩存的本質不同,它用模型的參數來存儲大量上下文信息。
具體辦法就是建一個臨時Lora模塊,讓它僅在長文本生成過程中“流式更新”,也就是用先前生成的內容不斷作為輸入來充當訓練數據,以此保證知識被存進模型參數中。
然后一旦推理完成,就丟掉它,保證不對模型參數產生長久影響。
這個方法可以讓我們不用擴展上下文窗口的同時,隨便存儲上下文信息,想存多少存多少。
實驗證明,這種方法:
既可以顯著提高模型長文本任務質量,實現困惑度下降29.6%,長文本翻譯質量(BLUE得分)提高53.2%;
還能兼容并增強現有大多數長文本生成方法。
最重要的是,能大大降低計算成本。
在保證生成質量小幅提升(困惑度降低3.8%)的同時,推理所需的FLOPs降低70.5%、延遲降低51.5%!
具體情況,我們翻開論文來看。
建個臨時Lora模塊用完即丟該方法名叫Temp-Lora,架構圖如下:
其核心就是以自回歸的方式用先前生成的文本上
原文鏈接:匿名論文提出奇招!增強大模型長文本能力居然還能這么做
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...