AIGC動態歡迎閱讀
原標題:上海AI Lab 搭臺,36個大模型一起角逐長上下文建模能力
關鍵字:模型,任務,文本,報告,邏輯推理
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | Richard現在的大模型論文簡直像是在比長度,動不動就上百頁!記得前陣子小編瞅見那份90頁的Gemini技術報告,頓時腦袋嗡嗡作響。那會兒就幻想著:要是有個AI大腦來啃下這些”學術巨無霸”,那豈不是爽歪歪?
沒想到過了幾個月,這個幻想竟然實現了!如今大語言模型正在挑戰這一難題,試圖成為我們閱讀長文本的得力助手。但問題是,這些AI助手自己對付長文本的能力如何呢?
近日,上海AI實驗室推出了一個名為NeedleBench的評測框架,對36個主流大模型展開了一場別開生面的”長文本拼”。這項研究不僅測試了模型們在不同長度文本上的表現,還設計了一系列漸進式的挑戰任務,就像是給LLMs出了一道道難度遞增的閱讀理解題。
有趣的是,在這場比拼中被譽為”LLM界的高考狀元”的GPT-4竟然只拿到了第二名!反倒是Claude-3-Opus后來者居上,一舉奪魁。這個結果讓不少人大跌眼鏡,也引發了業界對大模型長文本能力的新思考。
研究還發現,雖然這些AI模型在找出單一關鍵信息方面表現不錯,就像能準確回答”課文第三段第二句說了什么”,但在需要綜合分析、邏輯推理的復雜問題上,它們
原文鏈接:上海AI Lab 搭臺,36個大模型一起角逐長上下文建模能力
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...