全華人團(tuán)隊(duì)推出多模態(tài)大模型新基準(zhǔn),GPT-4o準(zhǔn)確率僅為65.5%,所有模型最易犯感知錯(cuò)誤
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:全華人團(tuán)隊(duì)推出多模態(tài)大模型新基準(zhǔn),GPT-4o準(zhǔn)確率僅為65.5%,所有模型最易犯感知錯(cuò)誤
關(guān)鍵字:任務(wù),模型,數(shù)據(jù),研究人員,視覺(jué)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
王家豪 投稿自 凹非寺量子位 | 公眾號(hào) QbitAIGPT-4o再次掀起多模態(tài)大模型的浪潮。
如果他們能以近似人類的熟練程度,在不同領(lǐng)域執(zhí)行廣泛的任務(wù),這對(duì)許多領(lǐng)域帶來(lái)性進(jìn)展。
因而,構(gòu)建一個(gè)全面的評(píng)估基準(zhǔn)測(cè)試就顯得格外重要。然而評(píng)估大型視覺(jué)語(yǔ)言模型能力的進(jìn)程顯著落后于它們自身的發(fā)展。
來(lái)自上海AI Lab、香港大學(xué)、上海交大、浙江大學(xué)等多家機(jī)構(gòu)提出了 MMT-Bench。
這是一個(gè)全方位的多模態(tài)基準(zhǔn)測(cè)試,旨在全面評(píng)估大型視覺(jué)語(yǔ)言模型(LVLMs)在多模態(tài)多任務(wù)理解方面的表現(xiàn)。
研究團(tuán)隊(duì)還對(duì)當(dāng)前幾個(gè)代表的視覺(jué)大模型進(jìn)行了能力評(píng)估,結(jié)果發(fā)現(xiàn)感知錯(cuò)誤、推理錯(cuò)誤是所有模型最常見(jiàn)的兩大錯(cuò)誤。
多模態(tài)多任務(wù)AGI基準(zhǔn)測(cè)試MMT-BenchMMT-Bench的廣度體現(xiàn)在三個(gè)方面。
首先,MMT-Bench數(shù)據(jù)經(jīng)過(guò)精心設(shè)計(jì),包含32K個(gè)多選視覺(jué)語(yǔ)言問(wèn)題,涵蓋了32個(gè)核心元任務(wù)和162個(gè)子任務(wù),這比此前的評(píng)測(cè)數(shù)據(jù)集MMBench大8.1倍。
其次,MMT-Bench包含了13種圖像類型,如自然場(chǎng)景、合成圖像、深度圖、富文本圖像、繪畫、屏幕截圖、點(diǎn)云、醫(yī)學(xué)圖像等。這樣的圖片多樣性要求模型能夠解釋理
原文鏈接:全華人團(tuán)隊(duì)推出多模態(tài)大模型新基準(zhǔn),GPT-4o準(zhǔn)確率僅為65.5%,所有模型最易犯感知錯(cuò)誤
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破