北大開源首個針對視頻編輯的新指標,與人類感知高度對齊|AAAI25
最新升級的視頻評價標準來了

原標題:北大開源首個針對視頻編輯的新指標,與人類感知高度對齊|AAAI25
文章來源:量子位
內(nèi)容字數(shù):4987字
北京大學MMCAL團隊開源首個視頻編輯質(zhì)量評估指標VE-Bench
北京大學MMCAL團隊開發(fā)了首個用于視頻編輯質(zhì)量評估的新指標——VE-Bench,并開源了相關(guān)代碼與預訓練權(quán)重。VE-Bench 關(guān)注AI視頻編輯中一個核心問題:編輯前后結(jié)果與原始視頻之間的聯(lián)系。它能區(qū)分語義保持(例如“摘掉女孩的耳環(huán)”)和語義改變(例如“把女孩換成鋼鐵俠”)的編輯,并更好地與人類主觀感受對齊。
1. 更豐富的數(shù)據(jù)庫VE-Bench DB
VE-Bench DB 的構(gòu)建涵蓋四個方面:原始視頻收集、提示詞收集、視頻編輯方法和主觀標注。為了保證數(shù)據(jù)多樣性,它收集了來自真實世界、CG渲染和AIGC的視頻,包含DAVIS、Kinetics-700、Sintel、Spring等公開數(shù)據(jù)集的視頻,以及Sora和可靈生成的AIGC視頻和互聯(lián)網(wǎng)補充視頻。所有視頻都調(diào)整為長邊768像素,并裁剪為32幀。
2. 多樣化的提示詞
VE-Bench 將提示詞分為風格編輯、語義編輯和結(jié)構(gòu)編輯三大類,并針對每個類別人工編寫了相應的提示詞,涵蓋顏色、紋理、氛圍、背景、對象添加/替換/移除、大小、姿態(tài)、動作等方面。
3. 多種視頻編輯方法
VE-Bench 選取了8種視頻編輯方法,涵蓋了從SD1.4到SD2.1的不同版本,以及基于ControlNet、PnP等不同策略的編輯方法,確保評估的全面性。
4. 人類主觀評價
VE-Bench 采用24位受試者進行主觀評分,符合ITU標準。受試者背景多樣,經(jīng)過線下培訓,并根據(jù)文本與視頻一致性、源視頻與目標視頻相關(guān)度以及編輯后視頻質(zhì)量進行綜合評價(十分制)。結(jié)果顯示,大多數(shù)模型得分在5分左右,少數(shù)模型可達近6分,部分模型低于4分。
5. 創(chuàng)新的評估方法VE-Bench QA
VE-Bench QA 從三個維度評估文本驅(qū)動的視頻編輯:文本-視頻一致性(基于改進的BLIP模型)、源視頻-編輯后視頻動態(tài)相關(guān)性(基于時空Transformer)和傳統(tǒng)視覺質(zhì)量(參考DOVER)。最終,各個分支的輸出通過線性層回歸得到最終分數(shù)。實驗結(jié)果顯示,VE-Bench QA 在多個數(shù)據(jù)集上都取得了SOTA的人類感知對齊結(jié)果。
6. 實驗結(jié)果與結(jié)論
VE-Bench QA 的實驗結(jié)果表明,它在預測結(jié)果與真值的相關(guān)性方面優(yōu)于其他方法。此外,分析還顯示,當前模型更擅長風格化指令,而刪除指令和形狀編輯的得分相對較低,這為未來模型的改進提供了方向。
VE-Bench 的開源為視頻編輯質(zhì)量評估提供了新的標準,有助于推動AI視頻編輯技術(shù)的發(fā)展。其更全面、更貼近人類感知的評估方法,為研究者提供了更有效的工具。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號