AI也會「刷抖音」!清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024
AIGC動態(tài)歡迎閱讀
原標(biāo)題:AI也會「刷抖音」!清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024
關(guān)鍵字:視頻,語音,模型,解讀,音頻
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:LRST 好困
【新智元導(dǎo)讀】音視頻大語言模型在處理視頻內(nèi)容時,往往未能充分發(fā)揮語音的作用。video-SALMONN模型通過三部分創(chuàng)新:音視頻編碼和時間對齊、多分辨率因果Q-Former、多樣性損失函數(shù)和混合未配對音視頻數(shù)據(jù)訓(xùn)練。該模型不僅在單一模態(tài)任務(wù)上表現(xiàn)優(yōu)異,更在視聽聯(lián)合任務(wù)中展現(xiàn)了卓越的性能,證明了其全面性和準(zhǔn)確性。想要看懂短視頻,除了視覺內(nèi)容外,語音和音頻等聽覺信息,如視頻音樂、音效、語音內(nèi)容等,也對短視頻的理解起到關(guān)鍵作用。
音視頻大語言模型(av-LLMs)在近幾年取得了顯著進(jìn)展,但語音作為視頻中人類語言的主要載體,仍未在這些模型中得到充分探索。語音不僅提供了豐富的語言和語義信息,還有助于理解視頻中的情感和潛在意義。
與此同時,語音信號還包含豐富的副語言信息,如音調(diào)和音高,以及多樣的說話者屬性(如年齡、性別、口音和身份),這些都是視頻理解中不可或缺的要素。
然而,增強通用視聽大語言模型的語音能力極具挑戰(zhàn)性,這需要時間上精細(xì)的建模,并在粗略(如視頻主題)和精細(xì)(如唇部動作)時間尺度上與其他模態(tài)進(jìn)行復(fù)雜的交互。
近期,發(fā)表在ICML 2024的論文《vid
原文鏈接:AI也會「刷抖音」!清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: