AIGC動態歡迎閱讀
原標題:阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%
關鍵字:模型,圖片,視覺,特征,文字
文章來源:量子位
內容字數:0字
內容摘要:
mPLUG團隊 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解,阿里通義實驗室mPLUG團隊拿下新SOTA。
最新多模態大模型mPLUG-DocOwl 2,僅以324個視覺token表示單個文檔圖片,在多個多頁文檔問答Benchmark上超越此前SOTA結果。
并且在A100-80G單卡條件下,做到分辨率為1653×2339的文檔圖片一次性最多支持輸入60頁!
△單個A100-80G最多能支持文檔圖片(分辨率=1653×2339)的數量以及首包時間
mPLUG-DocOwl是利用多模態大模型進行OCR-free文檔理解的一系列前沿探索工作。
DocOwl 1.0首次提出基于多模態大模型進行文檔理解方面的多任務指令微調;
UReader首次提出利用切圖的策略來處理高清文檔圖片,成為目前高清圖片理解的主流方案;
DocOwl 1.5提出統一結構學習,將多個bechmark的開源效果提升超過10個點,成為多模態大模型在文檔理解方面的主要對比基準。
隨著文檔圖片的分辨率以及切圖數量的不斷增加,開源多模態大模型的文檔理解性能有了顯著提升,然而這也導致視覺特征在大模型解碼時占用了過多的視覺t
原文鏈接:阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...