<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分

        100題,每道都是送命題。

        這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分

        原標(biāo)題:這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
        文章來(lái)源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):5944字

        ZeroBench:顛覆大模型視覺(jué)理解能力的全新基準(zhǔn)

        近日,一個(gè)名為ZeroBench的視覺(jué)基準(zhǔn)測(cè)試橫空出世,挑戰(zhàn)了包括GPT-4o和Gemini 2 Flash在內(nèi)的20多個(gè)頂尖大型多模態(tài)模型(LMM),并使其全部獲得零分。這引發(fā)了業(yè)界對(duì)現(xiàn)有大模型視覺(jué)理解能力的重新思考。

        1. ZeroBench的挑戰(zhàn)性問(wèn)題

        ZeroBench包含100個(gè)手工定制的極具挑戰(zhàn)性的問(wèn)題,這些問(wèn)題并非簡(jiǎn)單的圖像識(shí)別,而是需要模型進(jìn)行多步驟推理、復(fù)雜的視覺(jué)理解和跨領(lǐng)域的知識(shí)運(yùn)用。例如:

        1. 從一張反光模糊的菜單中,計(jì)算點(diǎn)單所有菜品的總價(jià)。
        2. 根據(jù)圖片計(jì)算不同重量和顏色的啞鈴的總重量,并進(jìn)行分類統(tǒng)計(jì)。
        3. 根據(jù)圖片中的線索,推理出一個(gè)6位數(shù)的保險(xiǎn)箱密碼。
        4. 計(jì)算圖片中朝南的鵝占總數(shù)的百分比,需要考慮方位、季節(jié)等因素。
        5. 根據(jù)一個(gè)由賽艇隊(duì)員裝備制成的特殊時(shí)鐘,解答一系列涉及時(shí)間、空間和幾何變換的問(wèn)題。

        這些問(wèn)題不僅考驗(yàn)?zāi)P偷囊曈X(jué)識(shí)別能力,還要求其具備強(qiáng)大的推理能力、知識(shí)儲(chǔ)備和對(duì)復(fù)雜場(chǎng)景的理解。

        2. ZeroBench的構(gòu)建過(guò)程

        ZeroBench的100個(gè)問(wèn)題由20多位專家手工打造,并經(jīng)過(guò)嚴(yán)格的篩選過(guò)程。為了保證難度,研究團(tuán)隊(duì)使用了最新的模型進(jìn)行“試水”,不斷調(diào)整問(wèn)題的難度,直到達(dá)到“難度適中”的標(biāo)準(zhǔn)。篩選流程包括反饋、初步評(píng)估、審查和對(duì)抗過(guò)濾四個(gè)步驟,確保問(wèn)題的挑戰(zhàn)性和多樣性。

        3. 評(píng)估結(jié)果與分析

        在ZeroBench上,所有參與評(píng)估的20個(gè)LMM均表現(xiàn)不佳,平均得分均為0%。即使是表現(xiàn)最好的Gemini 2 Flash Thinking,其正確率也僅為7%。研究人員發(fā)現(xiàn),模型在視覺(jué)解讀方面存在諸多錯(cuò)誤,例如錯(cuò)誤計(jì)數(shù)、忽略細(xì)節(jié)、空間關(guān)系理解困難等。

        4. ZeroBench的意義

        ZeroBench的出現(xiàn),標(biāo)志著對(duì)大模型視覺(jué)理解能力評(píng)估進(jìn)入了一個(gè)新的階段。它打破了現(xiàn)有基準(zhǔn)測(cè)試的局限性,為更準(zhǔn)確地衡量大模型的真實(shí)視覺(jué)理解能力提供了新的標(biāo)準(zhǔn),也為大模型未來(lái)的發(fā)展方向指明了方向。

        ZeroBench項(xiàng)目主頁(yè):https://zerobench.github.io/

        論文地址:https://arxiv.org/pdf/2502.09696


        聯(lián)系作者

        文章來(lái)源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 欧美好看的免费电影在线观看| 亚洲精品乱码久久久久久| 97无码人妻福利免费公开在线视频| 亚洲人精品亚洲人成在线| 国产AV无码专区亚洲精品| 免费一级特黄特色大片在线观看| 亚洲午夜久久久影院伊人| 色妞WWW精品免费视频| 97在线视频免费播放| 9i9精品国产免费久久| 亚洲国产精品ⅴa在线观看| 久久精品国产精品亚洲毛片| 久久亚洲中文字幕精品一区| 免费少妇a级毛片人成网| 成年女人午夜毛片免费看| 久久成人国产精品免费软件| 亚洲成AV人片高潮喷水| 亚洲国产成人久久| 国产美女无遮挡免费视频网站 | 日韩免费一区二区三区在线| 国产成人AV免费观看| 9i9精品国产免费久久| 国产精品免费在线播放| 黄色a三级三级三级免费看| 亚洲av无码日韩av无码网站冲| 亚洲天堂男人影院| 99热亚洲色精品国产88| 97久久国产亚洲精品超碰热| 亚洲H在线播放在线观看H| 亚洲精品视频在线观看免费| 久久久久亚洲精品天堂| 亚洲高清视频在线播放| 亚洲黄色在线网站| 亚洲欧洲精品在线| 亚洲综合校园春色| 亚洲一区二区三区成人网站| 亚洲人成自拍网站在线观看| 亚洲第一成年网站视频| 婷婷亚洲综合五月天小说在线| 国产成人久久精品亚洲小说| 一级毛片免费在线播放|