<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

        AIGC動態8個月前發布 量子位
        331 0 0

        LLM生成長段回復的能力還有待加強

        打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

        原標題:打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度
        文章來源:量子位
        內容字數:5290字

        長上下文大模型能力再評估:32K tokens的“水分”與LONGPROC基準

        近期,陳丹琦團隊提出的全新基準測試工具LONGPROC,對現有長上下文大模型(LLM)的能力提出了質疑。盡管許多大模型宣稱能輸出32K tokens的文本,但實際表現卻大打折扣。LONGPROC專注于評估模型處理復雜信息并生成長文本的能力,實驗結果顯示,即使是GPT-4o等頂尖模型,在處理8K tokens的復雜任務時也性能下降明顯,存在“幻覺”等問題。

        1. LONGPROC基準:更嚴格的測試標準

        現有基準主要關注長上下文記憶,而忽略了模型整合分散信息、生成長文本的能力。LONGPROC基準包含六個復雜任務,要求模型輸出超過1K tokens,并提供確定性解決方案,更全面地評估模型的長上下文處理能力。這六個任務分別是:

        1. HTML到TSV:從HTML頁面提取信息并格式化為表格。
        2. 偽代碼生成代碼:將偽代碼翻譯成C++代碼。
        3. 路徑遍歷:在公共交通網絡中尋找路徑。
        4. Theory-of-Mind跟蹤:跟蹤故事中對象位置的思想變化。
        5. Countdown游戲:使用四個數字和基本算術操作找到目標數字。
        6. 旅行規劃:生成滿足多種約束的多城市旅行計劃。

        LONGPROC 基準不僅考察輸出長度,還關注信息獲取方式、演繹推理和搜索能力等方面。

        2. 實驗結果:模型性能普遍下降

        實驗涵蓋17個模型,包括GPT-4o、Claude 3.5、Gemini 1.5等閉源模型和多個開源模型。結果顯示,所有模型在長程序生成任務中都表現出顯著的性能下降。即使是GPT-4o,在8K tokens的任務中也難以保持穩定性。開源模型普遍表現不佳,而中等規模的開源模型在低難度任務上與GPT-4o表現接近,但在某些特定8K任務中甚至超越了GPT-4o。

        3. 模型表現與任務類型相關

        模型性能與任務類型密切相關。需要更長推理鏈的任務(如Theory-of-Mind跟蹤、Countdown游戲和旅行規劃)導致模型性能下降更為顯著。GPT-4o等模型的準確率在這些任務現直線下降。

        4. 與人類能力的差距

        與人類表現相比,當前模型仍存在顯著差距。例如,在Countdown游戲中,人類解決了10個問題,而GPT-4o僅解決7個。

        5. 結論與未來方向

        LONGPROC 基準有效評估了模型在長程序生成任務中的表現,揭示了即使是最先進的模型,在生成連貫的長文本方面仍有很大的改進空間。尤其是在8K tokens的任務中,大型模型表現不佳,這將是未來LLM研究的重要方向。

        6. 論文作者

        論文一作是清華校友葉曦(Xi Ye),目前是普林斯頓大學博士后研究員,并將于2025年7月加入阿爾伯塔大學擔任助理教授。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: jyzzjyzz国产免费观看| 亚洲1234区乱码| 日本一区二区三区在线视频观看免费 | 亚洲伊人久久大香线焦| 久久久久久久久久国产精品免费| 国产AV无码专区亚洲AV手机麻豆| 成人免费视频一区二区| 久久精品国产亚洲一区二区三区 | 日韩精品无码免费视频| 免费一级一片一毛片| 亚洲精品无码av片| 四虎1515hm免费国产| 男男gay做爽爽的视频免费| 免费中文字幕一级毛片| jizz在线免费播放| 亚洲精品无码AV人在线播放 | 久久国产福利免费| 国产亚洲人成网站在线观看不卡| 久久国产乱子伦精品免费看| 久久久亚洲欧洲日产国码二区| 1000部拍拍拍18勿入免费视频软件| 亚洲午夜国产精品无卡| 日韩视频免费一区二区三区| 免费人成再在线观看网站 | a级毛片黄免费a级毛片| 中文字幕在线观看亚洲| 成人片黄网站色大片免费| 特级毛片在线大全免费播放| 国产亚洲色婷婷久久99精品| 日韩免费一区二区三区在线| 欧美色欧美亚洲另类二区| 国产AV无码专区亚洲AV漫画| 四虎1515hh永久久免费| 黄色网页免费观看| 亚洲视频在线观看一区| 麻豆国产人免费人成免费视频 | 最近免费中文字幕大全免费版视频| 亚洲精品国产国语| 亚洲午夜国产片在线观看| 18禁无遮挡无码国产免费网站| 亚洲欧美国产日韩av野草社区|