今日Arxiv最熱NLP大模型論文:Llama-2上下文擴(kuò)大48倍的方法來(lái)了,港大發(fā)布,無(wú)需訓(xùn)練

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日Arxiv最熱NLP大模型論文:Llama-2上下文擴(kuò)大48倍的方法來(lái)了,港大發(fā)布,無(wú)需訓(xùn)練
關(guān)鍵字:模型,上下文,長(zhǎng)上,下文,長(zhǎng)度
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):9509字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 芒果
引言:大語(yǔ)言模型的長(zhǎng)上下文理解能力在當(dāng)今的人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models,簡(jiǎn)稱LLMs)的長(zhǎng)上下文理解能力成為了一個(gè)重要的研究方向。這種能力對(duì)于模型來(lái)說(shuō)至關(guān)重要,因?yàn)樗沟肔LMs能夠有效地應(yīng)對(duì)各種應(yīng)用場(chǎng)景,例如在龐大的PDF文件中分析和回應(yīng)查詢、保留擴(kuò)展的對(duì)話歷史以及增強(qiáng)交互式機(jī)器人的功能。然而,由于訓(xùn)練語(yǔ)料庫(kù)的可獲取性有限,以及長(zhǎng)上下文微調(diào)的成本過(guò)高,目前的開(kāi)源模型在性能上往往無(wú)法與專有模型相媲美,且通常只能提供較小的模型尺寸(例如7B/13B)。
針對(duì)這些限制,不需要額外訓(xùn)練即可進(jìn)行上下文擴(kuò)展的方法變得尤為吸引人。最近的無(wú)訓(xùn)練方法,包括LM-infinite和StreamingLLM,已經(jīng)展示了在有限上下文窗口訓(xùn)練的LLMs能夠高效處理無(wú)限長(zhǎng)度的文本。這些模型通過(guò)選擇性保留關(guān)鍵的局部信息來(lái)處理擴(kuò)展序列,有效地維持了低困惑度(Perplexity,PPL),但它們失去了長(zhǎng)距離依賴性。為了保留全局信息,另一種觀點(diǎn)是有效地推斷出超出訓(xùn)練時(shí)遇到的序列長(zhǎng)度。一些流行的技術(shù),如基于Llama模型的位置插值(PI)和N
原文鏈接:今日Arxiv最熱NLP大模型論文:Llama-2上下文擴(kuò)大48倍的方法來(lái)了,港大發(fā)布,無(wú)需訓(xùn)練
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:更快的AI前沿,更深的行業(yè)洞見(jiàn)。聚集25萬(wàn)AI一線開(kāi)發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)湫袠I(yè)嗅覺(jué)與報(bào)道深度。

粵公網(wǎng)安備 44011502001135號(hào)