英偉達(dá)新研究:上下文長(zhǎng)度虛標(biāo)嚴(yán)重,32K性能合格的都不多
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:英偉達(dá)新研究:上下文長(zhǎng)度虛標(biāo)嚴(yán)重,32K性能合格的都不多
關(guān)鍵字:模型,長(zhǎng)度,上下文,任務(wù),長(zhǎng)上
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI無(wú)情戳穿“長(zhǎng)上下文”大模型的虛標(biāo)現(xiàn)象——
英偉達(dá)新研究發(fā)現(xiàn),包括GPT-4在內(nèi)的10個(gè)大模型,生成達(dá)到128k甚至1M上下文長(zhǎng)度的都有。
但一番考驗(yàn)下來(lái),在新指標(biāo)“有效上下文”上縮水嚴(yán)重,能達(dá)到32K的都不多。
新基準(zhǔn)名為RULER,包含檢索、多跳追蹤、聚合、問(wèn)答四大類(lèi)共13項(xiàng)任務(wù)。RULER定義了“有效上下文長(zhǎng)度”,即模型能保持與Llama-7B基線在4K長(zhǎng)度下同等性能的最大長(zhǎng)度。
這項(xiàng)研究被學(xué)者評(píng)價(jià)為“非常有洞察力”。
不少網(wǎng)友看到這項(xiàng)新研究后,也非常想看到上下文長(zhǎng)度王者玩家Claude和Gemini的挑戰(zhàn)結(jié)果。(論文中并未覆蓋)
一起來(lái)看英偉達(dá)是如何定義“有效上下文”指標(biāo)的。
測(cè)試任務(wù)更多、更難要評(píng)測(cè)大模型的長(zhǎng)文本理解能力,得先選個(gè)好標(biāo)準(zhǔn),現(xiàn)圈內(nèi)流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評(píng)估了模型檢索能力,要么受限于先驗(yàn)知識(shí)的干擾。
所以英偉達(dá)剔除的RULER方法,一句話概括就是“確保評(píng)估側(cè)重于模型處理和理解長(zhǎng)上下文的能力,而不是從訓(xùn)練數(shù)據(jù)中回憶信息的能力”。
RULER的
原文鏈接:英偉達(dá)新研究:上下文長(zhǎng)度虛標(biāo)嚴(yán)重,32K性能合格的都不多
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破