pdf-extract-api官網(wǎng)
pdf-extract-api是一個使用現(xiàn)代OCR技術(shù)和Ollama支持的模型將任何文檔或圖片轉(zhuǎn)換為結(jié)構(gòu)化的JSON或Markdown文本的API。它使用FastAPI構(gòu)建,并使用Celery進行異步任務(wù)處理,Redis用于緩存OCR結(jié)果。該API無需云或外部依賴,所有處理都在本地開發(fā)或服務(wù)器環(huán)境中完成,確保數(shù)據(jù)安全。它支持PDF到Markdown的高精度轉(zhuǎn)換,包括表格數(shù)據(jù)、數(shù)字或數(shù)學(xué)公式,并且可以使用Ollama支持的模型進行PDF到JSON的轉(zhuǎn)換。此外,該API還支持LLM改進OCR結(jié)果,去除PDF中的個人身份信息(PII),以及分布式隊列處理和緩存。
pdf-extract-api是什么
pdf-extract-api是一個強大的API,能夠?qū)⒏鞣N文檔(PDF、Word、PPTX等)和圖片轉(zhuǎn)換成結(jié)構(gòu)化的JSON或Markdown文本。它采用先進的OCR技術(shù)和Ollama支持的模型,所有處理都在本地完成,保證數(shù)據(jù)安全和隱私。該API尤其擅長高精度地將PDF轉(zhuǎn)換為Markdown,甚至能處理表格、數(shù)字和數(shù)學(xué)公式。此外,它還支持使用LLM改進OCR結(jié)果、去除個人身份信息(PII)等功能。
pdf-extract-api的主要功能
pdf-extract-api的核心功能是高精度地將文檔和圖片轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。其主要功能包括:PDF到Markdown和JSON的轉(zhuǎn)換、支持多種文檔格式、使用PyTorch基于Marker的OCR和Ollama模型進行本地處理、LLM改進OCR結(jié)果、去除PII、分布式隊列處理和緩存以及命令行工具支持。
如何使用pdf-extract-api
使用pdf-extract-api主要分以下步驟:1. 克隆倉庫到本地;2. 設(shè)置環(huán)境變量并創(chuàng)建.env文件;3. 使用Docker Compose構(gòu)建并運行Docker容器;4. 使用CLI工具上傳文件進行OCR轉(zhuǎn)換;5. 獲取OCR結(jié)果;6. 清除OCR緩存(可選)。詳細步驟請參考官方GitHub倉庫。
pdf-extract-api的產(chǎn)品價格
本文檔未提供pdf-extract-api的價格信息,建議訪問其官方GitHub倉庫或聯(lián)系開發(fā)者獲取價格信息。
pdf-extract-api的常見問題
該API支持哪些類型的文件? 該API支持PDF、Word、PPTX等多種文檔格式,以及圖片文件。
如何處理OCR識別錯誤? 該API支持使用LLM改進OCR結(jié)果,以提高準確性。此外,用戶也可以手動校正識別錯誤。
如何保證我的數(shù)據(jù)安全和隱私? pdf-extract-api的所有處理都在本地完成,無需云或外部依賴,確保數(shù)據(jù)安全和隱私。
pdf-extract-api官網(wǎng)入口網(wǎng)址
https://github.com/CatchTheTornado/pdf-extract-api
OpenI小編發(fā)現(xiàn)pdf-extract-api網(wǎng)站非常受用戶歡迎,請訪問pdf-extract-api網(wǎng)址入口試用。
數(shù)據(jù)評估
本站OpenI提供的pdf-extract-api都來源于網(wǎng)絡(luò),不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2025年 1月 16日 下午7:47收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進行刪除,OpenI不承擔(dān)任何責(zé)任。