多模態(tài)LLM視覺推理能力堪憂,浙大領(lǐng)銜用GPT-4合成數(shù)據(jù)構(gòu)建多模態(tài)基準(zhǔn)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)LLM視覺推理能力堪憂,浙大領(lǐng)銜用GPT-4合成數(shù)據(jù)構(gòu)建多模態(tài)基準(zhǔn)
關(guān)鍵字:模型,數(shù)據(jù),圖像,視覺,代碼
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:?jiǎn)虠?br />【新智元導(dǎo)讀】LLM的數(shù)學(xué)推理能力缺陷得到了很多研究的關(guān)注,但最近浙大、中科院等機(jī)構(gòu)的學(xué)者們提出,先進(jìn)模型在視覺推理方面同樣不足。為此他們提出了一種多模態(tài)的視覺推理基準(zhǔn),并設(shè)計(jì)了一種新穎的數(shù)據(jù)合成方法。無(wú)論是語(yǔ)言模型還是視覺模型,似乎都很難完成更抽象層次上的理解和推理任務(wù)。
語(yǔ)言模型已經(jīng)可以寫詩(shī)寫小說(shuō)了,但是依舊算不對(duì)9.11和9.9比大小的問(wèn)題。
同樣的問(wèn)題也出現(xiàn)在視覺模型中,它們能完美理解自然景色或人物照片,卻無(wú)法處理各種圖表任務(wù),甚至看表讀時(shí)間都是難題。
如果要將AI系統(tǒng)用在更多專業(yè)領(lǐng)域,這些能力缺陷就顯得極為突出。
最近,浙江大學(xué)、中科院軟件研究所、上海科技大學(xué)等機(jī)構(gòu)就聯(lián)合提出了一種新的多模態(tài)基準(zhǔn),專門衡量模型對(duì)抽象圖像的理解能力和視覺推理能力。
論文地址:https://arxiv.org/pdf/2407.07053
數(shù)據(jù)集共包含11,193個(gè)帶有相關(guān)問(wèn)題的抽象圖像,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關(guān)系圖、視覺謎題和2D平面圖等8大類別,此外還有額外的62,476條數(shù)據(jù)用于微調(diào)模型。
經(jīng)過(guò)測(cè)試,人類在該基準(zhǔn)上可以達(dá)到至少82.1%的準(zhǔn)確率,
原文鏈接:多模態(tài)LLM視覺推理能力堪憂,浙大領(lǐng)銜用GPT-4合成數(shù)據(jù)構(gòu)建多模態(tài)基準(zhǔn)
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: