WorldSense – 小紅書聯(lián)合上海交大推出的多模態(tài)全面評測新基準(zhǔn)
WorldSense是什么
WorldSense是由小紅書與上海交通大合推出的一款基準(zhǔn)測試工具,旨在評估多模態(tài)大型語言模型(MLLMs)在現(xiàn)實世界場景中對視覺、聽覺及文本輸入的綜合理解能力。該項目包含1662個音頻與視頻同步的多樣化視頻,覆蓋8個主要領(lǐng)域及67個細(xì)分子類別,并提供3172個多項選擇問答對,涉及26種不同的認(rèn)知任務(wù)。WorldSense特別強(qiáng)調(diào)音頻與視頻信息的密切結(jié)合,所有問題均需通過這兩種模態(tài)的信息來得出準(zhǔn)確答案。其高質(zhì)量的標(biāo)注由80名專家標(biāo)注員手動完成,經(jīng)過多輪驗證,以確保標(biāo)注的準(zhǔn)確性和可靠性。
WorldSense的主要功能
- 多模態(tài)協(xié)作評估:該系統(tǒng)重點(diǎn)考察音頻和視頻信息的緊密結(jié)合,設(shè)計出需要綜合視覺及聽覺信息才能正確回答的問題,以嚴(yán)格測試模型在多模態(tài)輸入環(huán)境下的理解能力。
- 多樣化視頻與任務(wù)覆蓋:WorldSense包含1662個音頻-視頻同步的多樣化視頻,涵蓋8個主要領(lǐng)域及67個細(xì)分子類別,并提供3172個多項選擇問答對,涉及26種不同的認(rèn)知任務(wù)。
- 高質(zhì)量標(biāo)注與驗證:所有問答對均由80名專家標(biāo)注員進(jìn)行手動標(biāo)注,并經(jīng)過多輪驗證,包括人工審核和自動模型驗證,以確保標(biāo)注的準(zhǔn)確性和可靠性。
WorldSense的技術(shù)原理
- 多模態(tài)輸入處理:WorldSense要求模型同時處理視頻、音頻和文本輸入,確保模型能夠捕捉到視覺與聽覺信息之間的關(guān)聯(lián),從而更全面地理解場景。這種多模態(tài)輸入處理能力是評估模型是否能夠像人類一樣應(yīng)對復(fù)雜環(huán)境的關(guān)鍵。
- 任務(wù)設(shè)計與標(biāo)注:基于精心設(shè)計的問答對,確保每個問題都需要多模態(tài)信息的融合才能得出正確答案。標(biāo)注過程經(jīng)過多輪人工審核及自動驗證,確保問題的合理性與標(biāo)注的準(zhǔn)確性。
- 多模態(tài)融合與推理:通過多樣化的任務(wù)設(shè)計,評估模型在不同層次上的多模態(tài)理解能力,包括基本感知(如音頻與視覺元素的檢測)、理解(多模態(tài)關(guān)系的把握)和推理(如因果推斷和抽象思維)。這種多層次的評估方法能夠全面測試模型的多模態(tài)融合與推理能力。
- 數(shù)據(jù)收集與篩選:WorldSense的數(shù)據(jù)收集過程涉及從大規(guī)模視頻數(shù)據(jù)集中篩選出具有強(qiáng)音頻-視覺關(guān)聯(lián)的視頻片段,并通過人工審核確保視頻內(nèi)容的質(zhì)量和多樣性,從而確保基準(zhǔn)測試覆蓋廣泛的現(xiàn)實世界場景。
WorldSense的項目地址
- 項目官網(wǎng):https://jaaackhongggg.github.io/WorldSense/
- GitHub倉庫:https://github.com/JaaackHongggg/WorldSense
- HuggingFace模型庫:https://huggingface.co/datasets/honglyhly/WorldSense
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.04326
WorldSense的應(yīng)用場景
- 自動駕駛:幫助自動駕駛系統(tǒng)更好地解讀交通環(huán)境中的視覺與聽覺信息,從而提升決策的準(zhǔn)確性。
- 智能教育:評估和優(yōu)化教育工具對教學(xué)視頻內(nèi)容的理解能力,以支持個性化學(xué)習(xí)。
- 智能監(jiān)控:增強(qiáng)監(jiān)控系統(tǒng)對視頻中視覺和音頻信息的感知與理解能力,提高安全檢測效果。
- 智能客服:評估智能客服系統(tǒng)對用戶語音、表情和文本輸入的理解能力,以優(yōu)化交互體驗。
- 內(nèi)容創(chuàng)作:幫助多媒體內(nèi)容創(chuàng)作和分析系統(tǒng)更智能地理解視頻內(nèi)容,從而提高創(chuàng)作和推薦的效率。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...