<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        WorldSense

        AI工具7個月前更新 AI工具集
        712 0 0

        WorldSense – 小紅書聯(lián)合上海交大推出的多模態(tài)全面評測新基準(zhǔn)

        WorldSense是什么

        WorldSense是由小紅書與上海交通大合推出的一款基準(zhǔn)測試工具,旨在評估多模態(tài)大型語言模型(MLLMs)在現(xiàn)實世界場景中對視覺、聽覺及文本輸入的綜合理解能力。該項目包含1662個音頻與視頻同步的多樣化視頻,覆蓋8個主要領(lǐng)域及67個細(xì)分子類別,并提供3172個多項選擇問答對,涉及26種不同的認(rèn)知任務(wù)。WorldSense特別強(qiáng)調(diào)音頻與視頻信息的密切結(jié)合,所有問題均需通過這兩種模態(tài)的信息來得出準(zhǔn)確答案。其高質(zhì)量的標(biāo)注由80名專家標(biāo)注員手動完成,經(jīng)過多輪驗證,以確保標(biāo)注的準(zhǔn)確性和可靠性。

        WorldSense

        WorldSense的主要功能

        • 多模態(tài)協(xié)作評估:該系統(tǒng)重點(diǎn)考察音頻和視頻信息的緊密結(jié)合,設(shè)計出需要綜合視覺及聽覺信息才能正確回答的問題,以嚴(yán)格測試模型在多模態(tài)輸入環(huán)境下的理解能力。
        • 多樣化視頻與任務(wù)覆蓋:WorldSense包含1662個音頻-視頻同步的多樣化視頻,涵蓋8個主要領(lǐng)域及67個細(xì)分子類別,并提供3172個多項選擇問答對,涉及26種不同的認(rèn)知任務(wù)。
        • 高質(zhì)量標(biāo)注與驗證:所有問答對均由80名專家標(biāo)注員進(jìn)行手動標(biāo)注,并經(jīng)過多輪驗證,包括人工審核和自動模型驗證,以確保標(biāo)注的準(zhǔn)確性和可靠性。

        WorldSense的技術(shù)原理

        • 多模態(tài)輸入處理:WorldSense要求模型同時處理視頻、音頻和文本輸入,確保模型能夠捕捉到視覺與聽覺信息之間的關(guān)聯(lián),從而更全面地理解場景。這種多模態(tài)輸入處理能力是評估模型是否能夠像人類一樣應(yīng)對復(fù)雜環(huán)境的關(guān)鍵。
        • 任務(wù)設(shè)計與標(biāo)注:基于精心設(shè)計的問答對,確保每個問題都需要多模態(tài)信息的融合才能得出正確答案。標(biāo)注過程經(jīng)過多輪人工審核及自動驗證,確保問題的合理性與標(biāo)注的準(zhǔn)確性。
        • 多模態(tài)融合與推理:通過多樣化的任務(wù)設(shè)計,評估模型在不同層次上的多模態(tài)理解能力,包括基本感知(如音頻與視覺元素的檢測)、理解(多模態(tài)關(guān)系的把握)和推理(如因果推斷和抽象思維)。這種多層次的評估方法能夠全面測試模型的多模態(tài)融合與推理能力。
        • 數(shù)據(jù)收集與篩選:WorldSense的數(shù)據(jù)收集過程涉及從大規(guī)模視頻數(shù)據(jù)集中篩選出具有強(qiáng)音頻-視覺關(guān)聯(lián)的視頻片段,并通過人工審核確保視頻內(nèi)容的質(zhì)量和多樣性,從而確保基準(zhǔn)測試覆蓋廣泛的現(xiàn)實世界場景。

        WorldSense的項目地址

        WorldSense的應(yīng)用場景

        • 自動駕駛:幫助自動駕駛系統(tǒng)更好地解讀交通環(huán)境中的視覺與聽覺信息,從而提升決策的準(zhǔn)確性。
        • 智能教育:評估和優(yōu)化教育工具對教學(xué)視頻內(nèi)容的理解能力,以支持個性化學(xué)習(xí)。
        • 智能監(jiān)控:增強(qiáng)監(jiān)控系統(tǒng)對視頻中視覺和音頻信息的感知與理解能力,提高安全檢測效果。
        • 智能客服:評估智能客服系統(tǒng)對用戶語音、表情和文本輸入的理解能力,以優(yōu)化交互體驗。
        • 內(nèi)容創(chuàng)作:幫助多媒體內(nèi)容創(chuàng)作和分析系統(tǒng)更智能地理解視頻內(nèi)容,從而提高創(chuàng)作和推薦的效率。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲成a人片在线观看无码| 亚洲伊人久久大香线蕉综合图片| 亚洲精彩视频在线观看| 中文字幕高清免费不卡视频| 久久久久亚洲精品无码网址| 一级黄色免费大片| 亚洲综合伊人久久综合| 麻豆最新国产剧情AV原创免费| 色噜噜综合亚洲av中文无码| 亚洲精品9999久久久久无码| 啦啦啦高清视频在线观看免费| 在线观看亚洲AV日韩AV| 精品国产免费观看久久久| 小说专区亚洲春色校园| 亚洲精品国产成人影院| a视频在线观看免费| 国产国产人免费视频成69大陆| 无码天堂va亚洲va在线va| 亚洲熟妇少妇任你躁在线观看无码 | 亚洲日韩看片无码电影| 国产一精品一aⅴ一免费| 色多多A级毛片免费看| 亚洲国产精品无码久久SM| 亚洲免费视频播放| 久久久久亚洲AV无码去区首| 久久亚洲2019中文字幕| 日韩午夜理论免费TV影院| 亚洲综合中文字幕无线码| 国产成人久久AV免费| 亚洲午夜成人精品无码色欲| 亚洲av麻豆aⅴ无码电影 | 黄色免费网站在线看| 亚洲第一AAAAA片| 免费无码又黄又爽又刺激| 免费中文字幕视频| 97久久精品亚洲中文字幕无码| 日韩视频免费一区二区三区| 免费看少妇高潮成人片| 成人亚洲国产va天堂| 永久在线毛片免费观看| a毛片免费播放全部完整|