<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        AIGC動態(tài)7個月前發(fā)布 量子位
        311 0 0

        最長150頁文檔

        多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格

        原標題:多模態(tài)長文檔新基準來了!20多項任務覆蓋理解推理定位,GPT-4o也就剛及格
        文章來源:量子位
        內(nèi)容字數(shù):7061字

        LongDocURL:評估多模態(tài)長文檔理解能力的新基準

        本文介紹了LongDocURL,一個用于全面評估大型視覺語言模型(LVLMs)多模態(tài)長文檔理解能力的新基準。該基準由中科院自動化研究所劉成林課題組和淘天集團算法技術(shù)-未來生活實驗室團隊合作完成,旨在克服現(xiàn)有基準在處理長文檔、復雜元素和多樣化任務方面的局限性。

        LongDocURL 的創(chuàng)新之處

        1. 長上下文:LongDocURL 專注于篇幅在 50~150 頁的英文文檔,平均頁數(shù)高達 85.6 頁,遠超現(xiàn)有基準。這使得它能夠更有效地評估模型處理長上下文信息的能力。

        2. 多模態(tài)輸入:該基準支持多模態(tài)輸入(圖像和文本),能夠更全面地評估模型對文檔圖像和結(jié)構(gòu)信息的理解能力。

        3. 細粒度評估:LongDocURL 定義了三個主任務類別(理解、數(shù)值推理、跨元素定位)以及 20 個細分子任務,涵蓋了更廣泛的任務類型,例如表格解析、圖表理解和跨元素關系分析。

        4. 高質(zhì)量數(shù)據(jù):數(shù)據(jù)集經(jīng)過模型自動驗證和人工驗證,確保了數(shù)據(jù)的準確性和可靠性。

        LongDocURL 的挑戰(zhàn)性

        LongDocURL 對當前的 LVLMs 構(gòu)成了巨大的挑戰(zhàn)。在 26 種不同的模型配置下進行的評估顯示,即使是表現(xiàn)最好的 GPT-4o,準確率也僅為 64.5%,勉強及格。其他模型的表現(xiàn)則更加遜色,大部分甚至未及格。

        實驗結(jié)果與分析

        1. 模型性能差異:閉源模型整體性能優(yōu)于開源模型。在開源模型中,只有 Qwen2-VL 和 LLaVA-OneVision 的得分超過 20 分。

        2. 多模態(tài) vs. 純文本:LVLM 的性能顯著高于 LLM,這主要是因為純文本輸入在解析過程中丟失了重要的文檔結(jié)構(gòu)信息。

        3. 細粒度分析:模型在文本問題上的表現(xiàn)最好,在表格問題上的表現(xiàn)最差,凸顯了文檔結(jié)構(gòu)解析能力的不足。多頁 QA 的準確率高于單頁 QA,但一些強模型在多頁 QA 上的定位任務得分較低,影響了整體表現(xiàn)。

        4. 輸入方式消融實驗:實驗表明,截斷圖像輸入優(yōu)于合并圖像輸入,而使用 Docmind 解析的文本輸入優(yōu)于 PyMuPDF 解析的文本輸入,這說明保留完整的表格結(jié)構(gòu)信息對模型性能至關重要。

        結(jié)論

        LongDocURL 為評估 LVLMs 的長文檔理解能力提供了一個更全面、細粒度的基準。其對現(xiàn)有模型的挑戰(zhàn)性結(jié)果表明,未來的研究需要進一步提升模型處理長文檔、復雜元素和多樣化任務的能力。LongDocURL 的出現(xiàn),將推動多模態(tài)長文檔理解領域的發(fā)展,并為構(gòu)建更強大的文檔理解系統(tǒng)提供重要的參考。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久亚洲AV午夜福利精品一区| 亚洲午夜精品久久久久久浪潮| 久久精品国产亚洲AV高清热| 国内永久免费crm系统z在线 | 77777亚洲午夜久久多喷| 亚洲欧美国产精品专区久久| 丝瓜app免费下载网址进入ios| 国产精品亚洲αv天堂无码| 一级美国片免费看| 国产亚洲一区区二区在线| 亚洲性无码av在线| 美女裸身网站免费看免费网站| 亚洲人成中文字幕在线观看| a级黄色毛片免费播放视频| 亚洲Av永久无码精品三区在线| 国产青草亚洲香蕉精品久久| 日批日出水久久亚洲精品tv| 亚洲中文字幕无码亚洲成A人片| a级片免费在线播放| 亚洲一区综合在线播放| 黄色永久免费网站| 亚洲精品美女久久7777777| 免费a级毛片18以上观看精品| 亚洲欧洲日本天天堂在线观看| 两个人的视频高清在线观看免费 | 亚洲小视频在线播放| 国产成人免费ā片在线观看| 一级毛片试看60分钟免费播放| 亚洲AV一宅男色影视| 91在线品视觉盛宴免费| 羞羞漫画在线成人漫画阅读免费| 亚洲尤码不卡AV麻豆| 免费AA片少妇人AA片直播| 黄页视频在线观看免费| 日本久久久久亚洲中字幕| 在线观看亚洲免费| 伊人久久免费视频| 爱情岛亚洲论坛在线观看| 亚洲伦理一区二区| 免费视频成人片在线观看| 亚洲四虎永久在线播放|