<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型

        實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建。

        港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型

        原標(biāo)題:港科大開源VideoVAE+,視頻重建質(zhì)量全面超越最新模型
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4576字

        港科大團(tuán)隊(duì)開源VideoVAE+:高效壓縮與精準(zhǔn)重建大幅視頻

        機(jī)器之心AIxiv專欄報道了香港科技大學(xué)團(tuán)隊(duì)重磅開源的VideoVAE+,這是一個強(qiáng)大的跨模態(tài)視頻變分自編碼器(Video VAE)。該模型通過創(chuàng)新的時空分離壓縮機(jī)制和文本指導(dǎo),實(shí)現(xiàn)了對大幅視頻的高效壓縮與精準(zhǔn)重建,同時保持了良好的時間一致性和恢復(fù)效果,并在多個基準(zhǔn)測試中超越了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個先進(jìn)模型。

        1. VideoVAE模型概述

        VideoVAE模型是一種基于深度學(xué)習(xí)的生成模型,用于視頻數(shù)據(jù)的壓縮、重建和生成。它將視頻從RGB像素空間投影到低維潛在空間(latent space)。常與擴(kuò)散模型結(jié)合使用,先用VideoVAE編碼器壓縮數(shù)據(jù),去除冗余信息,再在低維潛在空間用擴(kuò)散模型生成,最后用VideoVAE解碼器解碼回RGB視頻,從而提高生成效率。

        2. VideoVAE+的改進(jìn)與創(chuàng)新

        現(xiàn)有VideoVAE方法存在諸多問題,例如忽略幀間時間關(guān)聯(lián)性導(dǎo)致時序閃爍,時間冗余信息未充分壓縮導(dǎo)致訓(xùn)練成本高昂,以及細(xì)節(jié)模糊、卡頓等問題。為了解決這些問題,VideoVAE+提出了以下創(chuàng)新:

        1. 時空分離的壓縮機(jī)制:通過時序感知的空間壓縮方法,有效分離空間和時間信息處理,避免時空耦合導(dǎo)致的偽影。
        2. 輕量級壓縮模型:專門設(shè)計用于高效捕獲視頻動態(tài)的模型。
        3. 文本信息融合:利用文本信息作為指導(dǎo),提高視頻細(xì)節(jié)保留能力和時間穩(wěn)定性。
        4. 圖像和視頻聯(lián)合訓(xùn)練:在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練,增強(qiáng)模型在多任務(wù)上的重建性能和適應(yīng)性。

        VideoVAE+采用了一種優(yōu)化的時空建模策略,結(jié)合了“同時建模”和“順序建模”的優(yōu)勢。首先,使用時序感知的空間自編碼器壓縮空間信息,然后使用時序自編碼器壓縮時間信息。這種方法既能保證細(xì)節(jié)恢復(fù)能力,又能有效恢復(fù)。

        3. 關(guān)鍵技術(shù)細(xì)節(jié)

        VideoVAE+還包含以下關(guān)鍵技術(shù):

        1. 智能特征分塊:將視頻特征圖分割成小塊(patch)作為token處理,不同層采用不同尺寸,確保細(xì)節(jié)追蹤。
        2. 跨模態(tài)注意力機(jī)制:首次在Video VAE任務(wù)中引入文本信息作為語義指導(dǎo),提升細(xì)節(jié)重建質(zhì)量。
        3. 強(qiáng)大的文本嵌入器:采用Flan-T5模型將文本轉(zhuǎn)化為語義向量。

        4. 實(shí)驗(yàn)結(jié)果與結(jié)論

        VideoVAE+在多個數(shù)據(jù)集上進(jìn)行了測試,結(jié)果表明其性能大幅超過了包括英偉達(dá)Cosmos Tokenizer和騰訊Hunyuan Video在內(nèi)的多個最新模型。該模型能夠準(zhǔn)確重建大幅視頻,并有效解決了卡頓、重建模糊和細(xì)節(jié)缺失等問題。

        VideoVAE+的開源,為視頻壓縮、重建和生成領(lǐng)域帶來了新的突破,為后續(xù)研究提供了寶貴的參考。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日本在线看片免费| 华人在线精品免费观看| 毛片a级三毛片免费播放| 亚洲综合视频在线| 69视频在线观看高清免费| 老汉色老汉首页a亚洲| 97在线视频免费播放| 亚洲黑人嫩小videos| 日韩在线播放全免费| 亚洲一区二区三区久久| 免费成人福利视频| 亚洲乱码中文论理电影| 99精品全国免费观看视频| 亚洲国产精品99久久久久久 | 亚洲国产精品网站在线播放| 成人性生活免费视频| 亚洲国产精品99久久久久久| 免费午夜爽爽爽WWW视频十八禁 | 91成人免费观看在线观看| 亚洲精品无码久久久久sm| 最近免费mv在线观看动漫| 亚洲第一精品电影网| 成人免费视频88| h视频免费高清在线观看| 国产av天堂亚洲国产av天堂| 99视频在线免费看| 亚洲日韩一区二区一无码| 四虎在线播放免费永久视频| 成av免费大片黄在线观看| 久久亚洲精品无码aⅴ大香 | 国产精品亚洲四区在线观看| 无码人妻精品一二三区免费| 黄页网站在线免费观看| 久久亚洲国产精品| 日韩成人免费视频播放| 中文字幕av无码不卡免费| 亚洲综合伊人制服丝袜美腿| www亚洲精品少妇裸乳一区二区| 免费国产99久久久香蕉| 午夜亚洲国产理论片二级港台二级| 亚洲精品无码Av人在线观看国产|