TokenFD – 上海交大聯(lián)合美團推出的細粒度圖文對齊基礎模型
TokenFD是由上海交通大學與美團合作開發(fā)的一款先進的細粒度圖文對齊基礎模型,專注于文檔理解任務。該模型通過Token級對齊技術實現(xiàn)了圖像Token與語言Token在統(tǒng)一特征空間中的交互,特別適用于處理含有密集文字的圖像,展示了卓越的性能。
TokenFD是什么
TokenFD是上海交通大學與美團聯(lián)合研發(fā)的細粒度圖文對齊基礎模型,專注于文檔理解領域。它通過Token級的對齊機制,使圖像Token和語言Token能夠在同一特征空間內(nèi)共享,從而支持Token級的圖文交互。在處理文字密集的圖像時,TokenFD表現(xiàn)尤為出色。為訓練此模型,團隊創(chuàng)建了行業(yè)首個Token級圖文數(shù)據(jù)集——TokenIT,包含有2000萬張圖像以及18億個高質(zhì)量的Token-Mask對,數(shù)據(jù)量遠超其他現(xiàn)有模型。
TokenFD的主要功能
- 細粒度圖文對齊:TokenFD實現(xiàn)了圖像Token與語言Token在同一特征空間的共享,支持Token級別的圖文交互。
- 提升多模態(tài)任務性能:TokenFD顯著增強了多模態(tài)大模型在文檔理解任務中的表現(xiàn)。例如,在文本分割任務中,Zero-Shot性能提升達18.78%;在文本理解任務中,提升幅度為1.48%;而在文本檢索任務中,性能提升更是高達50.33%。
- 基座適配與擴展:TokenFD可以直接替代其他多模態(tài)大模型的基座,而無需額外訓練,便可提升各項評估基準。基于TokenFD作為視覺基礎模型,進一步推出了TokenVL,開啟了一種全新的多模態(tài)圖文對齊預訓練范式。
TokenFD的技術原理
- BPE分詞與像素級掩碼標注:TokenFD首創(chuàng)了BPE分詞與像素級掩碼標注的結合技術。具體而言,模型將文本分割為BPE子詞(例如“un-”、“-able”),并將每個子詞(Token)精確對應到圖像中的特定區(qū)域。這一過程使得模型能夠更有效地理解圖像中的文字信息,支持“圖像即文字”的語義映射。
- 數(shù)據(jù)集與模型訓練:TokenFD依托自主研發(fā)的TokenIT數(shù)據(jù)集進行訓練。該數(shù)據(jù)集包含了2000萬張圖像和18億個高質(zhì)量的Token-Mask對,涵蓋了自然場景、文檔及圖表等多種文本圖像類型。大規(guī)模的細粒度標注數(shù)據(jù)為模型提供了豐富的語義信息,使其在文檔理解、文本分割等任務中表現(xiàn)出色。
TokenFD的項目地址
- 項目官網(wǎng):https://token-family.github.io/project_page/
- Github倉庫:https://github.com/Token-family/TokenFD
- HuggingFace模型庫:https://huggingface.co/TongkunGuan/TokenFD
- arXiv技術論文:https://arxiv.org/pdf/2503.02304
TokenFD的應用場景
- 文檔理解與處理:TokenFD能夠高效處理包含密集文字的文檔圖像,例如表格、公式及其他復雜結構。
- 圖像安全審查:TokenFD適用于圖像安全審查,通過細粒度的圖文對齊,能夠更準確地檢測圖像中的違規(guī)內(nèi)容,如不當文字或符號。
- 基于文字的圖像檢索:TokenFD突破了傳統(tǒng)的基于文字識別的圖文檢索方式,支持通過特征空間直接進行相似度匹配,實現(xiàn)任意文字輸入的圖像內(nèi)容查找。
- 知識檢索增強的大模型:TokenFD可以用于提升知識檢索能力,通過細粒度的圖文對齊,幫助大模型更好地理解和生成與圖像相關的文本內(nèi)容。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...