VideoPhy – UCLA 聯(lián)合谷歌推出評估視頻生成模型物理常識能力的基準(zhǔn)測試
VideoPhy是由UCLA和谷歌研究院聯(lián)合開發(fā)的首個(gè)專注于評估視頻生成模型物理常識能力的基準(zhǔn)測試,旨在測量生成的視頻是否遵循現(xiàn)實(shí)世界的物理規(guī)律。該基準(zhǔn)包含688個(gè)描述物理交互的字幕,用于從多種文本到視頻模型的生成過程,并進(jìn)行人類與自動(dòng)評估。研究顯示,即使是最先進(jìn)的模型,其生成的視頻也只有39.6%能夠同時(shí)符合文本提示和物理法則。VideoPhy強(qiáng)調(diào)了視頻生成模型在模擬物理現(xiàn)象方面的限制,同時(shí)推出了自動(dòng)評估工具VideoCon-Physics,以支持未來模型的可靠評估。
VideoPhy是什么
VideoPhy是UCLA與谷歌研究院合作推出的創(chuàng)新基準(zhǔn)測試,專門評估視頻生成模型在物理常識方面的表現(xiàn)。通過688個(gè)經(jīng)過嚴(yán)格審核的字幕,VideoPhy能夠測試不同文本到視頻模型生成的視頻是否符合物理規(guī)律。該基準(zhǔn)的推出意在揭示視頻生成模型在物理模擬上的不足,并通過自動(dòng)評估工具VideoCon-Physics,為未來的模型評估提供支持。

主要功能
- 物理常識評估: 測試文本到視頻生成模型是否生成符合物理常識的視頻內(nèi)容。
- 標(biāo)準(zhǔn)化測試集: 提供688個(gè)經(jīng)過人類驗(yàn)證的描述性字幕,涵蓋固體-固體、固體-流體及流體-流體之間的物理互動(dòng),用于生成視頻并進(jìn)行評估。
- 綜合評估: 結(jié)合人類評估與自動(dòng)評估工具VideoCon-Physics,評估視頻的語義一致性和物理常識。
- 模型性能比較: 比較不同模型在VideoPhy數(shù)據(jù)集上的表現(xiàn),以確定哪些模型在遵循物理法則方面表現(xiàn)更佳。
- 推動(dòng)模型改進(jìn): 揭示現(xiàn)有模型在物理模擬上的不足,促進(jìn)研究者開發(fā)更符合物理常識的視頻生成模型。
技術(shù)原理
- 數(shù)據(jù)集構(gòu)建: VideoPhy的數(shù)據(jù)集通過三階段流程構(gòu)建,包括使用大型語言模型生成字幕候選項(xiàng)、人工驗(yàn)證字幕質(zhì)量及標(biāo)注視頻生成難度。
- 視頻生成: 利用不同的文本到視頻生成模型,根據(jù)VideoPhy數(shù)據(jù)集中的字幕生成視頻。
- 人類評估: 基于亞馬遜機(jī)械土耳其(Amazon Mechanical Turk)的人工評估者對生成的視頻進(jìn)行語義一致性和物理常識評分。
- 自動(dòng)評估模型: 發(fā)布VideoCon-Physics,基于VIDEOCON視頻-語言模型的自動(dòng)評估工具,微調(diào)后用于評估生成視頻的語義一致性和物理常識。
- 性能指標(biāo): 采用二元反饋(0或1)來評估視頻的語義一致性(Semantic Adherence, SA)和物理常識(Physical Commonsense, PC)。
項(xiàng)目地址
- 項(xiàng)目官網(wǎng):videophy.github.io
- GitHub倉庫:https://github.com/Hritikbansal/videophy
- HuggingFace模型庫:
- arXiv技術(shù)論文:https://arxiv.org/pdf/2406.03520
應(yīng)用場景
- 視頻生成模型開發(fā)與測試: 用于開發(fā)和測試新的文本到視頻生成模型,確保生成符合物理常識的視頻內(nèi)容。
- 計(jì)算機(jī)視覺研究: 在計(jì)算機(jī)視覺領(lǐng)域,輔助研究和改進(jìn)視頻理解算法,尤其是在涉及物理互動(dòng)和動(dòng)態(tài)場景理解方面。
- 教育與培訓(xùn): 可作為教育工具,幫助學(xué)生理解物理現(xiàn)象及視頻內(nèi)容生成過程。
- 娛樂產(chǎn)業(yè): 在電影、游戲和虛擬現(xiàn)實(shí)制作中,生成更加真實(shí)且符合物理規(guī)律的動(dòng)態(tài)場景。
- 自動(dòng)化內(nèi)容生成: 為新聞、體育及其他媒體內(nèi)容的自動(dòng)化生成提供技術(shù)支持,提高內(nèi)容質(zhì)量與真實(shí)性。
常見問題
- VideoPhy的測試集是如何構(gòu)建的? 測試集基于大型語言模型生成的字幕,通過人類驗(yàn)證確保質(zhì)量,并標(biāo)注生成視頻的難度。
- 如何評估生成的視頻是否符合物理常識? 評估通過人工評估者和自動(dòng)評估工具VideoCon-Physics結(jié)合進(jìn)行,確保評估的全面性和準(zhǔn)確性。
- VideoPhy的成果可以應(yīng)用于哪些領(lǐng)域? 主要應(yīng)用于視頻生成模型開發(fā)、計(jì)算機(jī)視覺研究、教育培訓(xùn)、娛樂產(chǎn)業(yè)及自動(dòng)化內(nèi)容生成等多個(gè)領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號