AIGC動態歡迎閱讀
文章來源:量子位
內容字數:3373字
內容摘要:克雷西 發自 凹非寺量子位 | 公眾號 QbitAI現在連文檔都有大模型了,還是高分辨率、多模態的那種!不僅能準確識別出圖像里的信息,還能結合用戶需求調用自己的知識庫來回答問題。比如,看到圖中馬里奧的界面,直接就回答出了這是任天堂公司的作品。這款模型由字節跳動和中國科學技術大學合作研究,于2023年11月24日上傳至arXiv。在此研究中,作者團隊提出DocPedia,一個統一的高分辨率多模態文檔大模型DocPedia。在此研究中,作者用一種新的方式解決了現有模型不能解析高分辨文檔圖像的短板。DocPedia分辨率可達2560×2560,而目前業內先進多模態大模型如LLaVA、MiniGPT-4等處理圖像分辨率上限為336×336,無法解析高分辨率的文檔圖像。那么,這款模型究竟表現如何,又使用了怎樣的優化方式呢?各項測評成績顯著提升在論文中,作者展示了DocPedia高分辨圖文理解的示例,…
原文鏈接:點此閱讀原文:突破分辨率極限,字節聯合中科大提出多模態文檔大模型
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...