OCR-Omni來了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OCR-Omni來了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024
關(guān)鍵字:模型,視覺,字節(jié)跳動,文本,圖像
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
TextHarmony團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI多模態(tài)生成新突破,字節(jié)&華師團(tuán)隊(duì)打造TextHarmony,在單一模型架構(gòu)中實(shí)現(xiàn)模態(tài)生成的統(tǒng)一,并入選NeurIPS 2024。
過去,視覺文字領(lǐng)域的大模型研究聚焦于單模態(tài)生成,雖然在個(gè)別任務(wù)上實(shí)現(xiàn)了模型的統(tǒng)一,但很難在OCR領(lǐng)域的多數(shù)任務(wù)上做到全面整合。
例如,Monkey等視覺語言模型(VLM)擅長文字檢測、識別和視覺問答(VQA)等文本模態(tài)生成任務(wù),卻無法勝任文字圖像的生成、抹除和編輯等圖像模態(tài)生成任務(wù)。反之,以 AnyText 為代表的基于擴(kuò)散模型的圖像生成模型則專注于圖像創(chuàng)建。因此,OCR領(lǐng)域亟需一個(gè)能夠統(tǒng)一多模態(tài)生成的大模型。
為解決這一難題,字節(jié)跳動與華東師范大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了創(chuàng)新性的多模態(tài)生成模型TextHarmony,不僅精通視覺文本的感知、理解和生成,還在單一模型架構(gòu)中實(shí)現(xiàn)了視覺與語言模態(tài)生成的和諧統(tǒng)一。
目前論文已經(jīng)上傳arXiv,代碼也即將開源,鏈接可在文末領(lǐng)取。
TextHarmony: 核心貢獻(xiàn)TextHarmony的核心優(yōu)勢在于其成功整合了視覺文本的理解和生成能力。傳統(tǒng)研究中,這兩類任務(wù)
原文鏈接:OCR-Omni來了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: