阿里8B模型拿下多頁(yè)文檔理解新SOTA，324個(gè)視覺(jué)token表示一頁(yè)，縮減80%

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：阿里8B模型拿下多頁(yè)文檔理解新SOTA，324個(gè)視覺(jué)token表示一頁(yè)，縮減80%
關(guān)鍵字：模型,圖片,視覺(jué),特征,文字
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

mPLUG團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI高效多頁(yè)文檔理解，阿里通義實(shí)驗(yàn)室mPLUG團(tuán)隊(duì)拿下新SOTA。
最新多模態(tài)大模型mPLUG-DocOwl 2，僅以324個(gè)視覺(jué)token表示單個(gè)文檔圖片，在多個(gè)多頁(yè)文檔問(wèn)答B(yǎng)enchmark上超越此前SOTA結(jié)果。
并且在A100-80G單卡條件下，做到分辨率為1653×2339的文檔圖片一次性最多支持輸入60頁(yè)！
△單個(gè)A100-80G最多能支持文檔圖片(分辨率=1653×2339)的數(shù)量以及首包時(shí)間
mPLUG-DocOwl是利用多模態(tài)大模型進(jìn)行OCR-free文檔理解的一系列前沿探索工作。
DocOwl 1.0首次提出基于多模態(tài)大模型進(jìn)行文檔理解方面的多任務(wù)指令微調(diào)；
UReader首次提出利用切圖的策略來(lái)處理高清文檔圖片，成為目前高清圖片理解的主流方案；
DocOwl 1.5提出統(tǒng)一結(jié)構(gòu)學(xué)習(xí)，將多個(gè)bechmark的開(kāi)源效果提升超過(guò)10個(gè)點(diǎn)，成為多模態(tài)大模型在文檔理解方面的主要對(duì)比基準(zhǔn)。
隨著文檔圖片的分辨率以及切圖數(shù)量的不斷增加，開(kāi)源多模態(tài)大模型的文檔理解性能有了顯著提升，然而這也導(dǎo)致視覺(jué)特征在大模型解碼時(shí)占用了過(guò)多的視覺(jué)t

原文鏈接：阿里8B模型拿下多頁(yè)文檔理解新SOTA，324個(gè)視覺(jué)token表示一頁(yè)，縮減80%