這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
100題,每道都是送命題。
原標(biāo)題:這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5944字
ZeroBench:顛覆大模型視覺(jué)理解能力的全新基準(zhǔn)
近日,一個(gè)名為ZeroBench的視覺(jué)基準(zhǔn)測(cè)試橫空出世,挑戰(zhàn)了包括GPT-4o和Gemini 2 Flash在內(nèi)的20多個(gè)頂尖大型多模態(tài)模型(LMM),并使其全部獲得零分。這引發(fā)了業(yè)界對(duì)現(xiàn)有大模型視覺(jué)理解能力的重新思考。
1. ZeroBench的挑戰(zhàn)性問(wèn)題
ZeroBench包含100個(gè)手工定制的極具挑戰(zhàn)性的問(wèn)題,這些問(wèn)題并非簡(jiǎn)單的圖像識(shí)別,而是需要模型進(jìn)行多步驟推理、復(fù)雜的視覺(jué)理解和跨領(lǐng)域的知識(shí)運(yùn)用。例如:
- 從一張反光模糊的菜單中,計(jì)算點(diǎn)單所有菜品的總價(jià)。
- 根據(jù)圖片計(jì)算不同重量和顏色的啞鈴的總重量,并進(jìn)行分類統(tǒng)計(jì)。
- 根據(jù)圖片中的線索,推理出一個(gè)6位數(shù)的保險(xiǎn)箱密碼。
- 計(jì)算圖片中朝南的鵝占總數(shù)的百分比,需要考慮方位、季節(jié)等因素。
- 根據(jù)一個(gè)由賽艇隊(duì)員裝備制成的特殊時(shí)鐘,解答一系列涉及時(shí)間、空間和幾何變換的問(wèn)題。
這些問(wèn)題不僅考驗(yàn)?zāi)P偷囊曈X(jué)識(shí)別能力,還要求其具備強(qiáng)大的推理能力、知識(shí)儲(chǔ)備和對(duì)復(fù)雜場(chǎng)景的理解。
2. ZeroBench的構(gòu)建過(guò)程
ZeroBench的100個(gè)問(wèn)題由20多位專家手工打造,并經(jīng)過(guò)嚴(yán)格的篩選過(guò)程。為了保證難度,研究團(tuán)隊(duì)使用了最新的模型進(jìn)行“試水”,不斷調(diào)整問(wèn)題的難度,直到達(dá)到“難度適中”的標(biāo)準(zhǔn)。篩選流程包括反饋、初步評(píng)估、審查和對(duì)抗過(guò)濾四個(gè)步驟,確保問(wèn)題的挑戰(zhàn)性和多樣性。
3. 評(píng)估結(jié)果與分析
在ZeroBench上,所有參與評(píng)估的20個(gè)LMM均表現(xiàn)不佳,平均得分均為0%。即使是表現(xiàn)最好的Gemini 2 Flash Thinking,其正確率也僅為7%。研究人員發(fā)現(xiàn),模型在視覺(jué)解讀方面存在諸多錯(cuò)誤,例如錯(cuò)誤計(jì)數(shù)、忽略細(xì)節(jié)、空間關(guān)系理解困難等。
4. ZeroBench的意義
ZeroBench的出現(xiàn),標(biāo)志著對(duì)大模型視覺(jué)理解能力評(píng)估進(jìn)入了一個(gè)新的階段。它打破了現(xiàn)有基準(zhǔn)測(cè)試的局限性,為更準(zhǔn)確地衡量大模型的真實(shí)視覺(jué)理解能力提供了新的標(biāo)準(zhǔn),也為大模型未來(lái)的發(fā)展方向指明了方向。
ZeroBench項(xiàng)目主頁(yè):https://zerobench.github.io/
論文地址:https://arxiv.org/pdf/2502.09696
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)