一覽大模型長文本能力
AIGC動態(tài)歡迎閱讀
原標(biāo)題:一覽大模型長文本能力
關(guān)鍵字:模型,位置,文本,數(shù)據(jù),侵權(quán)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):11828字
內(nèi)容摘要:
智猩猩和智東西發(fā)起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進(jìn)行開幕式、大模型專場、AI Infra專場和AIGC應(yīng)用專場;分會場將進(jìn)行具身智能技術(shù)研討會、AI智能體技術(shù)研討會和中國智算中心創(chuàng)新論壇。掃名,也可咨詢。導(dǎo)讀本文是作者BPSk從數(shù)據(jù)層面、模型層面、評估層面對大模型長文本能力技術(shù)點(diǎn)總結(jié)以及對業(yè)內(nèi)優(yōu)秀工作的匯總。
本文只做技術(shù)分享,如有侵權(quán),聯(lián)系刪文。前言
如今的大模型被應(yīng)用在各個場景,其中有些場景則需要模型能夠支持處理較長文本的能力(比如8k甚至更長),其中已經(jīng)有很多開源或者閉源模型具備該能力比如GPT4、Baichuan2-192K等等。
那關(guān)于LLM的長文本能力,目前業(yè)界通常都是怎么做的?有哪些技術(shù)點(diǎn)或者方向?今天我們就來總結(jié)一波,供大家快速全面了解。
當(dāng)然也有一些關(guān)于LLM長文本的綜述,感興趣的小伙伴可以看看,比如:
《Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey》
https://arxi
原文鏈接:一覽大模型長文本能力
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。