GPT-4o弱點(diǎn)暴露了,PDF長文檔閱讀理解僅45分

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o弱點(diǎn)暴露了,PDF長文檔閱讀理解僅45分
關(guān)鍵字:模型,問題,信息,能力,內(nèi)容
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
YuBo Ma 投稿量子位 | 公眾號 QbitAI圖文并茂的PDF長文檔在日常生活中無處不在。過去人們通常使用OCR,layout detection等方法對PDF長文檔進(jìn)行解析。但隨著多模態(tài)大模型的發(fā)展,PDF長文檔的端到端閱讀理解成為了可能。
為了評測多模態(tài)大模型在PDF長文檔上的閱讀理解能力,由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評估基準(zhǔn)測試了14個(gè)LVLMs(視覺語言大模型)。
評估結(jié)果表明:表現(xiàn)最好的GPT-4o在整體F1分?jǐn)?shù)上也只達(dá)到了 44.9%。
GPT-4V排名第二,得分30.5%。
除了這兩個(gè)模型,其他被評測LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。
這些結(jié)果表明,目前的LVLMs在端到端PDF長文檔閱讀任務(wù)上雖然表現(xiàn)出了一定的潛力,但仍然還有很大的提升空間。
135個(gè)PDF、1091個(gè)問題LVLMs的出現(xiàn)有效促進(jìn)了文檔理解任務(wù)的解決。針對單頁文檔,常見的閉源和開源模型都展示出了相當(dāng)不錯(cuò)的表現(xiàn)(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財(cái)報(bào)、宣傳資料,往往有更多的頁數(shù),許多文檔長度可以達(dá)到
原文鏈接:GPT-4o弱點(diǎn)暴露了,PDF長文檔閱讀理解僅45分
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號