gmft官網
gmft是一個用于將PDF中的表格轉換為多種格式的工具包。它輕量級、模塊化且性能優越。gmft依賴于微軟的Table Transformers,這是眾多替代方案中性能最好、最可靠的。gmft無需GPU即可運行,具有高吞吐量,并且安裝簡便,僅需一行代碼即可完成安裝。它使用PyPDFium2,因其高吞吐量和寬松的許可證而受到青睞。gmft使用的訓練模型TATR在多樣化的數據集PubTables-1M上訓練,具有高可靠性。
gmft是什么?
gmft是一款輕量級、高性能的PDF表格提取工具,它能夠將PDF文檔中的表格數據快速、高效地轉換為多種格式,例如Pandas DataFrame。gmft基于微軟的Table Transformers模型,無需GPU即可運行,并具有高吞吐量,即使處理大量PDF文件也能保持高效。它使用PyPDFium2庫進行PDF處理,確保了其速度和兼容性。
gmft的主要功能
gmft的主要功能是將PDF表格轉換為其他格式,并提供豐富的附加功能,例如:
- 支持多種輸出格式,包括Pandas DataFrame等。
- 能夠輸出表格的文本內容和位置信息。
- 可以輸出表格的裁剪圖像。
- 支持表格標題的提取。
- 無需OCR,即可處理圖像和掃描PDF。
- 高吞吐量,快速處理大量PDF文件。
- 可配置性強,支持自定義模型和提取方法。
如何使用gmft
gmft的使用非常簡單,主要步驟如下:
- 安裝: 使用命令
pip install gmft
安裝gmft。 - 導入模塊: 在Python腳本中導入必要的模塊,例如
CroppedTable
,TableDetector
,AutoTableFormatter
等。 - 創建文檔對象: 使用
PyPDFium2Document
創建PDF文檔對象。 - 表格檢測: 使用
TableDetector
遍歷文檔頁面,檢測表格。 - 表格格式化: 使用
AutoTableFormatter
格式化檢測到的表格。 - 數據轉換: 將提取的表格數據轉換為所需格式,例如Pandas DataFrame。
- 關閉文檔: 使用
close()
方法關閉文檔對象釋放資源。
gmft產品價格
gmft是一個開源工具,完全免費使用。
gmft常見問題
gmft支持哪些類型的PDF文件? gmft支持各種類型的PDF文件,包括圖像型PDF和掃描PDF,無需OCR即可進行表格提取。
gmft的性能如何? gmft基于高效的Table Transformers模型和PyPDFium2庫,具有高吞吐量和優越的性能,能夠快速處理大量PDF文件。
gmft的輸出格式有哪些? gmft支持多種輸出格式,最常用的就是Pandas DataFrame,方便用戶進行后續的數據分析。當然,它也支持輸出表格的文本和位置信息以及裁剪圖像。
gmft官網入口網址
https://github.com/conjuncts/gmft
OpenI小編發現gmft網站非常受用戶歡迎,請訪問gmft網址入口試用。
數據統計
數據評估
本站OpenI提供的gmft都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2025年 1月 16日 下午7:50收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。