<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        mPLUG-DocOwl2

        AI工具10個月前發(fā)布 AI工具集
        1,023 0 0

        mPLUG-DocOwl 2是一款由阿里巴巴通義實(shí)驗(yàn)室mPLUG團(tuán)隊(duì)研發(fā)的多模態(tài)大型語言模型,專注于多頁文檔的理解與處理。它通過先進(jìn)的高分辨率文檔圖像壓縮技術(shù),能夠高效地解讀文檔圖像,而無需依賴傳統(tǒng)的光學(xué)字符識別(OCR)技術(shù)。mPLUG-DocOwl 2在多頁文檔理解的基準(zhǔn)測試中取得了新的最高標(biāo)準(zhǔn)(SOTA),每頁文檔圖像僅消耗324個token,從而顯著降低顯存占用和首包響應(yīng)時間,提升了處理速度。該模型的訓(xùn)練分為三個階段:單頁預(yù)訓(xùn)練、多頁預(yù)訓(xùn)練和多任務(wù)指令微調(diào),支持對單頁和多頁文檔中復(fù)雜問題的理解,包括跨頁內(nèi)容的關(guān)聯(lián)和結(jié)構(gòu)解析。

        mPLUG-DocOwl2

        mPLUG-DocOwl2的主要功能

        • 多頁文檔理解:無需OCR技術(shù),直接從多頁文檔圖像中提取和理解信息。
        • 高分辨率圖像處理:通過高分辨率文檔圖像壓縮模塊,將每頁圖像壓縮至324個視覺token,減少顯存占用并加快響應(yīng)速度。
        • 多頁問答能力:能夠解答與多頁文檔內(nèi)容相關(guān)的問題,并提供詳細(xì)解釋及相關(guān)頁碼。
        • 文檔結(jié)構(gòu)解析:解析文檔的層級結(jié)構(gòu),并以JSON格式輸出,便于后續(xù)數(shù)據(jù)處理與分析。
        • 跨頁內(nèi)容關(guān)聯(lián):理解并關(guān)聯(lián)多頁文檔中跨頁的內(nèi)容,從而實(shí)現(xiàn)更全面的結(jié)構(gòu)理解。
        • 高效處理:在單個A100-80G GPU上,能夠同時處理多達(dá)60頁的高清文檔圖片,顯著提升處理效率。

        mPLUG-DocOwl2的技術(shù)原理

        • 高分辨率文檔圖像壓縮(High-resolution DocCompressor):利用低分辨率全局視覺特征作為指導(dǎo),通過cross-attention機(jī)制將高分辨率文檔圖像壓縮為更少的視覺token。
        • 形狀自適應(yīng)裁剪:根據(jù)文檔的形狀和尺寸進(jìn)行自適應(yīng)切割,以適應(yīng)不同頁面的布局需求。
        • 視覺特征提取:通過視覺編碼器(如ViT)提取切片的視覺特征,并通過H-Reducer模塊進(jìn)行特征合并和維度對齊。
        • 跨注意力機(jī)制:在壓縮過程中,使用全局圖特征作為查詢,切片特征作為鍵值對,通過cross-attention層實(shí)現(xiàn)特征的有效壓縮。
        • 全局與局部視覺特征結(jié)合:結(jié)合全局視覺特征(捕捉布局信息)和局部視覺特征(保留文本和圖像細(xì)節(jié)),實(shí)現(xiàn)更精確的文檔理解。

        mPLUG-DocOwl2的項(xiàng)目地址

        mPLUG-DocOwl2的應(yīng)用場景

        • 法律文件分析:自動解析法律文件和案例,提取關(guān)鍵信息,支持法律研究與案件準(zhǔn)備。
        • 醫(yī)療記錄管理:從醫(yī)療記錄和報(bào)告中提取重要數(shù)據(jù),支持病人護(hù)理、研究和行政管理。
        • 學(xué)術(shù)研究:幫助研究人員快速理解和總結(jié)大量文獻(xiàn),加速科學(xué)發(fā)現(xiàn)與知識創(chuàng)新。
        • 金融報(bào)告分析:自動化處理年度報(bào)告、財(cái)務(wù)報(bào)表及其他金融文檔,提取關(guān)鍵財(cái)務(wù)指標(biāo)與趨勢。
        • 文檔處理:自動化處理發(fā)布的公告、法規(guī)和政策文件,提高服務(wù)效率。

        常見問題

        • mPLUG-DocOwl 2能否處理非英文文檔?是的,mPLUG-DocOwl 2支持多種語言的文檔理解。
        • 該模型的訓(xùn)練數(shù)據(jù)來源是什么?模型訓(xùn)練使用了多種公共數(shù)據(jù)集和文檔,以確保其通用性和準(zhǔn)確性。
        • 如何獲取mPLUG-DocOwl 2的最新版本?用戶可以訪問其GitHub倉庫獲取最新的模型和更新信息。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一欧洲中文字幕在线| 久草在视频免费福利| 亚洲国产精品一区二区第四页 | 久久夜色精品国产亚洲AV动态图| 午夜在线亚洲男人午在线| 在线视频免费观看www动漫| 亚洲影视自拍揄拍愉拍| 毛片高清视频在线看免费观看| 国产午夜亚洲精品国产| 青青青国产免费一夜七次郎 | 亚洲午夜电影在线观看| 无码免费午夜福利片在线| 亚洲色大成网站www永久网站| 日本一线a视频免费观看| 黄网站色成年片大免费高清| 亚洲精品高清在线| 黄桃AV无码免费一区二区三区| 国产亚洲欧洲Aⅴ综合一区| 久久精品乱子伦免费| 亚洲人成网站在线观看播放青青| 美女被免费喷白浆视频| 亚洲av永久无码| 亚洲日韩一页精品发布| 久久久精品2019免费观看| 亚洲不卡中文字幕| 免费国产不卡午夜福在线| 岛国岛国免费V片在线观看| 亚洲视频在线免费播放| 日本免费一区尤物| 国产精品免费αv视频| 亚洲国产高清视频| 免费无码不卡视频在线观看| 国产福利免费视频| 亚洲日本视频在线观看| 免费一看一级毛片全播放| 久久国产乱子伦精品免费一| 亚洲人成色777777精品| 国产AV无码专区亚洲AV漫画| 青娱乐免费视频在线观看| caoporn国产精品免费| 亚洲午夜精品一区二区公牛电影院|