LOKI是由中山大學(xué)與上海AI Lab共同開發(fā)的合成數(shù)據(jù)檢測(cè)基準(zhǔn),專注于全面評(píng)估大型多模態(tài)模型(LMMs)在識(shí)別視頻、圖像、3D模型、文本和音頻等多種模態(tài)合成數(shù)據(jù)的能力。該基準(zhǔn)包含超過18,000個(gè)問題,涵蓋26個(gè)子類別,采用多層次標(biāo)注并支持細(xì)粒度的異常注釋。
LOKI是什么
LOKI是由中山大學(xué)和上海AI Lab聯(lián)合提出的合成數(shù)據(jù)檢測(cè)基準(zhǔn),旨在全面評(píng)估大型多模態(tài)模型(LMMs)在識(shí)別視頻、圖像、3D模型、文本和音頻等多種模態(tài)合成數(shù)據(jù)的能力。該基準(zhǔn)包含超過18,000個(gè)問題,覆蓋26個(gè)子類別,采用多層次標(biāo)注,支持細(xì)粒度異常注釋。LOKI考察模型的感知與推理能力,并通過自然語言解釋增強(qiáng)模型的可理解性。通過對(duì)22個(gè)開源和6個(gè)閉源的LMMs進(jìn)行評(píng)估,LOKI揭示了這些模型在合成數(shù)據(jù)檢測(cè)任務(wù)中的潛力與局限性。
LOKI的主要功能
- 多模態(tài)數(shù)據(jù)檢測(cè):評(píng)估LMMs在識(shí)別合成的視頻、圖像、3D模型、文本和音頻數(shù)據(jù)方面的能力。
- 細(xì)粒度異常注釋:提供詳盡的異常注釋,支持對(duì)合成數(shù)據(jù)的深入分析與理解。
- 多層次標(biāo)注:包括基本的“合成或真實(shí)”標(biāo)簽,適用于基礎(chǔ)問題設(shè)置,及更復(fù)雜的異常細(xì)節(jié)選擇與解釋任務(wù)。
- 全面評(píng)估框架:支持多種數(shù)據(jù)格式輸入,如視頻、圖像、文本、音頻和點(diǎn)云,統(tǒng)一超過25種主流LMMs的API。
- 性能比較:支持對(duì)不同LMMs進(jìn)行比較,包括開源和閉源模型,以及專家合成檢測(cè)模型。
- 可解釋:通過要求模型提供自然語言解釋,測(cè)試LMMs在合成數(shù)據(jù)檢測(cè)任務(wù)中的可解釋性。
- 數(shù)據(jù)多樣性:收集多種類型的合成數(shù)據(jù),包括專業(yè)領(lǐng)域數(shù)據(jù),如衛(wèi)星圖像和醫(yī)學(xué)圖像,環(huán)境音和音樂等音頻數(shù)據(jù)。
- 問題難度分級(jí):根據(jù)人類評(píng)估指標(biāo)對(duì)問題進(jìn)行難度分級(jí),測(cè)試LMMs在不同難度水平上的表現(xiàn)。
- 模型偏差分析:通過計(jì)算模型的偏差指數(shù),分析模型在合成數(shù)據(jù)檢測(cè)任務(wù)中的偏差與傾向性。
促進(jìn)AI發(fā)展:推動(dòng)更強(qiáng)大、更可解釋的合成數(shù)據(jù)檢測(cè)方法的發(fā)展,以應(yīng)對(duì)AI合成技術(shù)帶來的挑戰(zhàn)。
LOKI的技術(shù)原理
- 數(shù)據(jù)收集與合成:LOKI收集了視頻、圖像、3D模型、文本和音頻等多種模態(tài)的數(shù)據(jù),這些數(shù)據(jù)部分來自公開數(shù)據(jù)集,部分通過最新的合成模型生成。
- 多模態(tài)評(píng)估框架:LOKI構(gòu)建了一個(gè)全面的多模態(tài)評(píng)估框架,支持多種數(shù)據(jù)格式的輸入,統(tǒng)一多種主流LMMs的API,在統(tǒng)一的標(biāo)準(zhǔn)下評(píng)估不同模型的性能。
- 模型評(píng)估與比較:LOKI基準(zhǔn)測(cè)試涵蓋了多個(gè)開源和閉源的LMMs評(píng)估。通過比較這些模型在合成數(shù)據(jù)檢測(cè)任務(wù)上的表現(xiàn),可以分析它們的性能與局限性。
- 自然語言解釋:LOKI要求模型提供自然語言解釋,增強(qiáng)模型的可解釋性。測(cè)試模型的檢測(cè)能力,評(píng)估模型解釋其判斷的理由。
LOKI的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):opendatalab.github.io/LOKI
- Github倉庫:https://github.com/opendatalab/LOKI
- arXiv技術(shù)論文:https://arxiv.org/pdf/2410.09732
LOKI的應(yīng)用場(chǎng)景
- 人工智能安全性評(píng)估:LOKI可以用于評(píng)估和提高AI系統(tǒng)在處理合成數(shù)據(jù)時(shí)的安全性與魯棒性,確保AI系統(tǒng)在面對(duì)潛在的合成數(shù)據(jù)攻擊時(shí)能準(zhǔn)確識(shí)別并做出正確響應(yīng)。
- 內(nèi)容審核:在社交媒體、新聞網(wǎng)站和其他內(nèi)容平臺(tái),LOKI可以幫助檢測(cè)和過濾由AI生成的假新聞、深度偽造(deepfakes)視頻或音頻,保護(hù)用戶免受誤導(dǎo)。
- 數(shù)據(jù)集驗(yàn)證:在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,LOKI可以用于驗(yàn)證數(shù)據(jù)集的質(zhì)量和真實(shí)性,確保訓(xùn)練數(shù)據(jù)中不包含過多的合成數(shù)據(jù),從而提高模型的泛化能力。
- 法律和合規(guī)性:在法律領(lǐng)域,LOKI可以幫助識(shí)別和處理與合成數(shù)據(jù)相關(guān)的版權(quán)、隱私和合規(guī)性問題,例如,檢測(cè)和防止未經(jīng)授權(quán)的內(nèi)容生成和分發(fā)。
- 媒體和娛樂:在電影、游戲和虛擬現(xiàn)實(shí)制作中,LOKI可以用于評(píng)估和改進(jìn)合成媒體內(nèi)容的質(zhì)量,確保生成的內(nèi)容既真實(shí)又符合創(chuàng)作者的意圖。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...