ACL2024主會(huì):中科院發(fā)布表格理解大模型Table-LLaVA,刷榜23項(xiàng)指標(biāo)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ACL2024主會(huì):中科院發(fā)布表格理解大模型Table-LLaVA,刷榜23項(xiàng)指標(biāo)
關(guān)鍵字:表格,模型,任務(wù),報(bào)告,數(shù)據(jù)
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | Richard
隨著人工智能的飛速發(fā)展,讓AI模型像人一樣直接”看懂”表格,進(jìn)而完成相關(guān)任務(wù)的能力變得越來(lái)越重要。然而,以往的表格理解方法大多依賴于將表格轉(zhuǎn)換為文本格式再輸入模型,這不僅耗時(shí)耗力,在實(shí)際應(yīng)用中獲取高質(zhì)量文本格式表格也并非易事。那么,AI模型能否直接通過(guò)視覺(jué)信息理解表格呢?
近日,中科院信工所的研究者們創(chuàng)新性地提出了”多模態(tài)表格理解”這一問(wèn)題,即讓AI模型直接從表格圖像中獲取信息,進(jìn)而完成問(wèn)答、推理等下游任務(wù)。他們構(gòu)建了目前最大規(guī)模的多模態(tài)表格理解數(shù)據(jù)集MMTab,涵蓋了豐富多樣的表格圖像和任務(wù),并在此基礎(chǔ)上開發(fā)了一個(gè)強(qiáng)大的多模態(tài)表格理解模型Table-LLaVA。
通過(guò)巧妙的兩階段訓(xùn)練,Table-LLaVA展現(xiàn)出了優(yōu)異的多模態(tài)表格理解能力,在23個(gè)評(píng)測(cè)任務(wù)上全面超越了現(xiàn)有的多模態(tài)大模型,甚至可以和強(qiáng)大的GPT-4V一較高下。
論文標(biāo)題:Multimodal Table Understanding
論文鏈接:https://arxiv.org/pdf/2406.08100
表格處理,AI的新戰(zhàn)場(chǎng)在大數(shù)據(jù)時(shí)代,表格無(wú)處不在。傳統(tǒng)的表格理解方法需
原文鏈接:ACL2024主會(huì):中科院發(fā)布表格理解大模型Table-LLaVA,刷榜23項(xiàng)指標(biāo)
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: