無一大模型及格! 北大/通研院提出超難基準(zhǔn),專門評估長文本理解生成

AIGC動態(tài)歡迎閱讀
原標(biāo)題:無一大模型及格! 北大/通研院提出超難基準(zhǔn),專門評估長文本理解生成
關(guān)鍵字:模型,任務(wù),長程,能力,長上
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
LooGLE團隊 投稿自 凹非寺量子位 | 公眾號 QbitAI在長文本理解能力這塊,竟然沒有一個大模型及格!
北大聯(lián)合北京通用人工智能研究院提出了一個新基準(zhǔn)數(shù)據(jù)集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。
該數(shù)據(jù)集既能夠評估LLMs對長文本的處理和檢索能力,又可以評估其對文本長程依賴的建模和理解能力。
結(jié)果不評不知道,一評估發(fā)現(xiàn)這些模型在復(fù)雜的長依賴任務(wù)中的多信息檢索、時間重排序、計算、理解推理能力表現(xiàn)均不樂觀。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業(yè)模型,平均只有40%的準(zhǔn)確率。
而像開源模型表現(xiàn)就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準(zhǔn)確率。
目前該論文已被ACL 2024接收。
論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學(xué)人工智能研究院助理教授張牧涵。
LooGLE基準(zhǔn)測試LooGLE基準(zhǔn)測試主要有這樣幾個特點:
首先,它包含包含近
原文鏈接:無一大模型及格! 北大/通研院提出超難基準(zhǔn),專門評估長文本理解生成
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號