TPAMI-2024 | Uni-AdaFocus視頻理解框架,讓AI學(xué)會「劃重點(diǎn)」,計(jì)算效率提升4-23倍!
實(shí)現(xiàn)了降低時(shí)間、空間、樣本冗余性的統(tǒng)一建模

原標(biāo)題:TPAMI-2024 | Uni-AdaFocus視頻理解框架,讓AI學(xué)會「劃重點(diǎn)」,計(jì)算效率提升4-23倍!
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4995字
機(jī)器之心AIxiv專欄推薦:高效視頻理解框架Uni-AdaFocus
本文介紹了近期被IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用的一篇論文:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition。該論文提出了一種高效的視頻理解框架Uni-AdaFocus,其會議版本AdaFocus V1/V2/V3分別發(fā)表于ICCV-2021、CVPR-2022和ECCV-2022。代碼和預(yù)訓(xùn)練模型已開源。
1. 研究背景與動機(jī)
隨著視頻數(shù)據(jù)量的式增長,高效的視頻理解技術(shù)至關(guān)重要。現(xiàn)有深度學(xué)習(xí)模型在處理視頻時(shí)計(jì)算開銷巨大,這主要源于視頻數(shù)據(jù)的時(shí)間和空間冗余性。Uni-AdaFocus 旨在解決這個(gè)問題。
2. Uni-AdaFocus的核心思想
Uni-AdaFocus的核心思想是通過統(tǒng)一建模來降低時(shí)間、空間和樣本三個(gè)維度上的冗余性。具體而言:
降低時(shí)間冗余性:動態(tài)選擇關(guān)鍵幀,避免對所有幀進(jìn)行處理。
降低空間冗余性:動態(tài)定位每一幀中的關(guān)鍵區(qū)域,集中計(jì)算資源。
降低樣本冗余性:根據(jù)樣本難度差異化分配計(jì)算資源,優(yōu)先處理困難樣本。
Uni-AdaFocus巧妙地利用數(shù)學(xué)方法解決了時(shí)空動態(tài)計(jì)算的不可微分問題,實(shí)現(xiàn)了高效的端到端訓(xùn)練,無需復(fù)雜的強(qiáng)化學(xué)習(xí)。
3. 模型架構(gòu)
Uni-AdaFocus采用了一個(gè)三階段架構(gòu):首先,輕量級全局編碼器提取視頻的全局特征;然后,策略網(wǎng)絡(luò)根據(jù)全局特征選擇關(guān)鍵幀和關(guān)鍵區(qū)域;最后,高容量局部編碼器處理選擇的區(qū)域,并結(jié)合全局特征進(jìn)行最終分類。通過早退機(jī)制進(jìn)一步優(yōu)化樣本維度上的計(jì)算。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,Uni-AdaFocus在多個(gè)數(shù)據(jù)集(ActivityNet,F(xiàn)CVID,Mini-Kinetics,Something-Something-V1&V2,Jester,Kinetics-400)和應(yīng)用場景(阿爾茲海默癥和帕金森綜合征診斷、細(xì)粒度跳水動作識別、不良視頻檢測)上均取得了顯著的性能提升和加速效果。與現(xiàn)有最佳方法相比,Uni-AdaFocus在長視頻理解上加速了5倍,并能兼容多種骨干網(wǎng)絡(luò),例如TSM和X3D,分別實(shí)現(xiàn)約4倍的加速,同時(shí)保持甚至提升了準(zhǔn)確率。在某些情況下,Uni-AdaFocus可實(shí)現(xiàn)高達(dá)23倍的推理加速或7.7%的準(zhǔn)確率提升,CPU/GPU實(shí)測結(jié)果與理論結(jié)果高度一致。
5. 總結(jié)
Uni-AdaFocus是一個(gè)高效且通用的視頻理解框架,它通過統(tǒng)一建模降低了視頻數(shù)據(jù)的時(shí)間、空間和樣本冗余性,實(shí)現(xiàn)了顯著的性能提升和計(jì)算效率的提高。其開源的代碼和預(yù)訓(xùn)練模型為視頻理解領(lǐng)域的研究和應(yīng)用提供了 valuable 的工具。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號