GPT-4o弱點(diǎn)暴露了，PDF長文檔閱讀理解僅45分

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：GPT-4o弱點(diǎn)暴露了，PDF長文檔閱讀理解僅45分
關(guān)鍵字：模型,問題,信息,能力,內(nèi)容
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

YuBo Ma 投稿量子位 | 公眾號 QbitAI圖文并茂的PDF長文檔在日常生活中無處不在。過去人們通常使用OCR，layout detection等方法對PDF長文檔進(jìn)行解析。但隨著多模態(tài)大模型的發(fā)展，PDF長文檔的端到端閱讀理解成為了可能。
為了評測多模態(tài)大模型在PDF長文檔上的閱讀理解能力，由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評估基準(zhǔn)測試了14個(gè)LVLMs（視覺語言大模型）。
評估結(jié)果表明：表現(xiàn)最好的GPT-4o在整體F1分?jǐn)?shù)上也只達(dá)到了 44.9%。
GPT-4V排名第二，得分30.5%。
除了這兩個(gè)模型，其他被評測LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。
這些結(jié)果表明，目前的LVLMs在端到端PDF長文檔閱讀任務(wù)上雖然表現(xiàn)出了一定的潛力，但仍然還有很大的提升空間。
135個(gè)PDF、1091個(gè)問題LVLMs的出現(xiàn)有效促進(jìn)了文檔理解任務(wù)的解決。針對單頁文檔，常見的閉源和開源模型都展示出了相當(dāng)不錯(cuò)的表現(xiàn)（DocVQA > 90%；ChartQA > 80%）。然而，日常生活中閱讀的文檔，如論文、財(cái)報(bào)、宣傳資料，往往有更多的頁數(shù)，許多文檔長度可以達(dá)到

原文鏈接：GPT-4o弱點(diǎn)暴露了，PDF長文檔閱讀理解僅45分