DeepSeek-OCR – DeepSeek團隊開源的視覺語言模型
DeepSeek-OCR,這款由 DeepSeek 團隊匠心打造的視覺語言模型,正以其獨特的“光學壓縮”技術,革新長文本內容的處理方式。它巧妙地將 DeepEncoder 編碼器與 DeepSeek3B-MoE 解碼器融為一體,在保證高分辨率輸入的同時,大幅削減了激活內存的消耗和視覺標記的數量,從而實現了卓越的效率。
DeepSeek-OCR 是什么?
DeepSeek-OCR 是 DeepSeek 團隊推出的一款前沿視覺語言模型,其核心優勢在于運用光學壓縮技術,高效地處理海量文本。該模型由 DeepEncoder 編碼器和 DeepSeek3B-MoE 解碼器協同工作,能夠在維持高精度圖像輸入的同時,顯著降低內存占用和視覺標記數量。令人矚目的是,DeepSeek-OCR 在 10 倍壓縮率下仍能保持高達 97% 的光學字符識別(OCR)準確率,即便在 20 倍壓縮率的嚴苛條件下,其準確率也能維持在 60% 以上。它不僅支持多分辨率模式,還能勝任多語言文檔的處理,并能深度解析圖表、化學公式等復雜內容,為大規模文檔處理提供了高效且強大的解決方案。
DeepSeek-OCR 的核心功能
- 圖像文本高效壓縮:通過視覺模態對冗長文本進行高效壓縮,可實現 7 至 20 倍的驚人壓縮比。
- 多語種 OCR 能力:支持識別近百種不同語言的文檔,涵蓋中文、英文、文、僧伽羅文等多種語系。
- 深層內容解析:具備解析圖表、化學公式、幾何圖形等復雜視覺內容的能力。
- 多元輸出格式:提供兩種輸出模式:一種是保留原始布局的 Markdown 格式,另一種是純文本的 OCR 格式。
DeepSeek-OCR 的技術精髓
- 核心架構:DeepSeek-OCR 的設計核心由兩大組件構成:
- DeepEncoder:專責將輸入的圖像(即文檔)轉換為視覺令牌。
- DeepSeek-3B-MoE-A570M:充當解碼器,負責將這些視覺令牌還原為可讀文本。
- DeepEncoder 詳解:DeepEncoder 作為 DeepSeek-OCR 的關鍵組成部分,其設計目標是在處理高分辨率輸入時,最大程度地降低激活內存并實現高壓縮比。其內部結構包含:
- 雙塔式結構:
- SAM-base (80M):采用窗口注意力機制,擅長捕捉局部特征,在高分辨率輸入下能有效控制內存消耗。
- CLIP-large (300M):利用全局注意力機制,旨在提取整體語義信息。由于輸入經過預壓縮,全局注意力部分的內存開銷得以有效管理。
- 16 倍卷積壓縮層:在 SAM 和 CLIP 之間,DeepEncoder 巧妙地引入了一個 16 倍的卷積壓縮模塊。該模塊通過兩層卷積(每層步長為 2)將視覺令牌的數量從 4096 大幅削減至 256。此設計在不犧牲關鍵信息的前提下,顯著減少了視覺令牌數量,進而降低了內存占用。
- 多分辨率支持:DeepEncoder 能夠靈活適應多種分辨率模式,包括 Tiny、Small、Base、Large 以及 Gundam 等。每種模式對應不同的輸入分辨率和生成的視覺令牌數量。例如:
- Tiny:處理 512×512 分辨率的圖像,生成 64 個視覺令牌。
- Small:處理 640×640 分辨率的圖像,生成 100 個視覺令牌。
- Base:處理 1024×1024 分辨率的圖像,生成 256 個視覺令牌。
- Large:處理 1280×1280 分辨率的圖像,生成 400 個視覺令牌。
- Gundam:具備動態分辨率處理能力,支持更高分辨率的輸入,通過分塊處理進一步優化激活內存使用。
- 雙塔式結構:
- 解碼器:DeepSeek-3B-MoE-A570M:此解碼器基于 DeepSeek-3B-MoE 架構,擁有 570M 的激活參數。它的主要職責是將經過壓縮的視覺令牌解碼為可讀文本。通過非線性映射,解碼器將視覺令牌轉換為文本表示。具體而言,其功能可表示為: fdec?:Rn×dlatent?→RN×dtext?,其中 n 代表視覺令牌的數量,N 為文本令牌的數量,而 dlatent? 和 dtext? 則分別表示視覺令牌和文本令牌的維度。
DeepSeek-OCR 的項目資源
- GitHub 代碼庫:https://github.com/deepseek-ai/DeepSeek-OCR
- HuggingFace 模型庫:https://huggingface.co/deepseek-ai/DeepSeek-OCR
- 技術研究論文:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
DeepSeek-OCR 的應用場景
- 大規模訓練數據生成:每日可自動處理數十萬頁文檔,為大型語言模型和視覺語言模型提供海量且優質的訓練數據。
- 企業文檔數字化轉型:能夠快速、精準地將企業內部的紙質合同、報告等各類文件轉化為可檢索、可編輯的數字格式。
- 學術研究與文獻處理:精確解析學術論文中的復雜內容,如數學公式、化學式及圖表,并將其結構化為機器可讀的格式。
- 多語言國際化文檔處理:輕松應對跨國企業或組織在全球業務中遇到的各種多語言文檔處理需求。
- 金融與商業智能分析:能夠深入解析研究報告中的圖表信息,將其轉換為結構化數據,從而為財務分析和投資決策提供自動化的支持。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...