港科大開源VideoVAE+，視頻重建質(zhì)量全面超越最新模型

實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建。

原標(biāo)題：港科大開源VideoVAE+，視頻重建質(zhì)量全面超越最新模型
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4576字

港科大團(tuán)隊(duì)開源VideoVAE+：高效壓縮與精準(zhǔn)重建大幅視頻

機(jī)器之心AIxiv專欄報道了香港科技大學(xué)團(tuán)隊(duì)重磅開源的VideoVAE+，這是一個強(qiáng)大的跨模態(tài)視頻變分自編碼器（Video VAE）。該模型通過創(chuàng)新的時空分離壓縮機(jī)制和文本指導(dǎo)，實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建，同時保持了良好的時間一致性和恢復(fù)效果，并在多個基準(zhǔn)測試中超越了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個先進(jìn)模型。

1. VideoVAE模型概述

VideoVAE模型是一種基于深度學(xué)習(xí)的生成模型，用于視頻數(shù)據(jù)的壓縮、重建和生成。它將視頻從RGB像素空間投影到低維潛在空間（latent space）。常與擴(kuò)散模型結(jié)合使用，先用VideoVAE編碼器壓縮數(shù)據(jù)，去除冗余信息，再在低維潛在空間用擴(kuò)散模型生成，最后用VideoVAE解碼器解碼回RGB視頻，從而提高生成效率。

2. VideoVAE+的改進(jìn)與創(chuàng)新

現(xiàn)有VideoVAE方法存在諸多問題，例如忽略幀間時間關(guān)聯(lián)性導(dǎo)致時序閃爍，時間冗余信息未充分壓縮導(dǎo)致訓(xùn)練成本高昂，以及細(xì)節(jié)模糊、卡頓等問題。為了解決這些問題，VideoVAE+提出了以下創(chuàng)新：

時空分離的壓縮機(jī)制：通過時序感知的空間壓縮方法，有效分離空間和時間信息處理，避免時空耦合導(dǎo)致的偽影。
輕量級壓縮模型：專門設(shè)計用于高效捕獲視頻動態(tài)的模型。
文本信息融合：利用文本信息作為指導(dǎo)，提高視頻細(xì)節(jié)保留能力和時間穩(wěn)定性。
圖像和視頻聯(lián)合訓(xùn)練：在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練，增強(qiáng)模型在多任務(wù)上的重建性能和適應(yīng)性。

VideoVAE+采用了一種優(yōu)化的時空建模策略，結(jié)合了“同時建模”和“順序建模”的優(yōu)勢。首先，使用時序感知的空間自編碼器壓縮空間信息，然后使用時序自編碼器壓縮時間信息。這種方法既能保證細(xì)節(jié)恢復(fù)能力，又能有效恢復(fù)。

3. 關(guān)鍵技術(shù)細(xì)節(jié)

VideoVAE+還包含以下關(guān)鍵技術(shù)：

智能特征分塊：將視頻特征圖分割成小塊（patch）作為token處理，不同層采用不同尺寸，確保細(xì)節(jié)追蹤。
跨模態(tài)注意力機(jī)制：首次在Video VAE任務(wù)中引入文本信息作為語義指導(dǎo)，提升細(xì)節(jié)重建質(zhì)量。
強(qiáng)大的文本嵌入器：采用Flan-T5模型將文本轉(zhuǎn)化為語義向量。

4. 實(shí)驗(yàn)結(jié)果與結(jié)論

VideoVAE+在多個數(shù)據(jù)集上進(jìn)行了測試，結(jié)果表明其性能大幅超過了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個最新模型。該模型能夠準(zhǔn)確重建大幅視頻，并有效解決了卡頓、重建模糊和細(xì)節(jié)缺失等問題。

VideoVAE+的開源，為視頻壓縮、重建和生成領(lǐng)域帶來了新的突破，為后續(xù)研究提供了寶貴的參考。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# VideoVAE # 低比特率視頻編碼 # 港科大 # 視頻重建 # 高分辨率視頻生成

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

港科大開源VideoVAE+，視頻重建質(zhì)量全面超越最新模型

實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建。

港科大團(tuán)隊(duì)開源VideoVAE+：高效壓縮與精準(zhǔn)重建大幅視頻

1. VideoVAE模型概述

2. VideoVAE+的改進(jìn)與創(chuàng)新

3. 關(guān)鍵技術(shù)細(xì)節(jié)

4. 實(shí)驗(yàn)結(jié)果與結(jié)論

聯(lián)系作者

用你的活法抵抗算法：讀南方周末2025新年獻(xiàn)詞

Hinton發(fā)2024末日預(yù)警：10年內(nèi)人類滅絕！奧特曼預(yù)言18個月ASI降臨

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？