<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%

        AIGC動態12個月前發布 量子位
        500 0 0

        阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%

        AIGC動態歡迎閱讀

        原標題:阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%
        關鍵字:模型,圖片,視覺,特征,文字
        文章來源:量子位
        內容字數:0字

        內容摘要:


        mPLUG團隊 投稿量子位 | 公眾號 QbitAI高效多頁文檔理解,阿里通義實驗室mPLUG團隊拿下新SOTA。
        最新多模態大模型mPLUG-DocOwl 2,僅以324個視覺token表示單個文檔圖片,在多個多頁文檔問答Benchmark上超越此前SOTA結果。
        并且在A100-80G單卡條件下,做到分辨率為1653×2339的文檔圖片一次性最多支持輸入60頁!
        △單個A100-80G最多能支持文檔圖片(分辨率=1653×2339)的數量以及首包時間
        mPLUG-DocOwl是利用多模態大模型進行OCR-free文檔理解的一系列前沿探索工作。
        DocOwl 1.0首次提出基于多模態大模型進行文檔理解方面的多任務指令微調;
        UReader首次提出利用切圖的策略來處理高清文檔圖片,成為目前高清圖片理解的主流方案;
        DocOwl 1.5提出統一結構學習,將多個bechmark的開源效果提升超過10個點,成為多模態大模型在文檔理解方面的主要對比基準。
        隨著文檔圖片的分辨率以及切圖數量的不斷增加,開源多模態大模型的文檔理解性能有了顯著提升,然而這也導致視覺特征在大模型解碼時占用了過多的視覺t


        原文鏈接:阿里8B模型拿下多頁文檔理解新SOTA,324個視覺token表示一頁,縮減80%

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩亚洲产在线观看| 国产啪亚洲国产精品无码| 亚洲国产精品福利片在线观看| 色欲色欲天天天www亚洲伊| 国产香蕉九九久久精品免费| 亚洲另类古典武侠| 精品久久久久久久久免费影院| 亚洲国产视频网站| 成人免费福利电影| 亚洲av日韩综合一区久热| 四虎免费影院4hu永久免费| 免费精品国产自产拍在线观看 | 最新久久免费视频| 亚洲美女又黄又爽在线观看| 免费看男人j放进女人j免费看| 亚洲黄色网址大全| 毛片免费vip会员在线看| 亚洲sm另类一区二区三区| 亚洲成A∨人片天堂网无码| 国产免费区在线观看十分钟| 亚洲成av人片天堂网| 久久精品免费全国观看国产| 亚洲国产aⅴ成人精品无吗| 亚洲综合亚洲综合网成人| 亚洲免费在线视频| 亚洲人成图片网站| 亚洲中文字幕视频国产| 99精品视频在线观看免费播放| 亚洲综合色区中文字幕| 免费人成视频在线观看视频| 成人黄网站片免费视频| 久久精品国产亚洲αv忘忧草| 国产不卡免费视频| 亚欧日韩毛片在线看免费网站| 一本色道久久88亚洲精品综合| 亚洲视频在线免费| www.黄色免费网站| 国产精品九九久久免费视频| 亚洲一区二区三区在线| 亚洲精品无码久久毛片| 麻豆一区二区免费播放网站|