NeurIPS 2023|有效提高視頻編輯一致性,美圖&國(guó)科大提出基于文生圖模型新方法EI2
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2023|有效提高視頻編輯一致性,美圖&國(guó)科大提出基于文生圖模型新方法EI2
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6217字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部美圖影像研究院(MT Lab)與中國(guó)科學(xué)院大學(xué)突破性地提出了基于文生圖模型的視頻生成新方法 EI2,用于提高視頻編輯過程中的語義和內(nèi)容兩方面的一致性。該論文從理論角度分析和論證視頻編輯過程現(xiàn)的不一致的問題,主要由引入的時(shí)序信息學(xué)習(xí)模塊使特征空間出現(xiàn)協(xié)變量偏移造成,并針對(duì)性地設(shè)計(jì)了新的網(wǎng)絡(luò)模塊進(jìn)行解決以生成高質(zhì)量的編輯結(jié)果。目前,該論文已被機(jī)器學(xué)習(xí)頂會(huì)之一 NeurIPS 2023 接收。
背景
作為當(dāng)前炙手可熱的前沿技術(shù)之一,生成式 AI 被廣泛應(yīng)用于各類視覺合成任務(wù),尤其是在圖像生成和編輯領(lǐng)域獲得了令人贊嘆的生成效果。對(duì)比靜態(tài)圖像,視頻擁有更豐富的動(dòng)態(tài)變化和語義信息,而現(xiàn)有的視覺生成任務(wù)主要基于變分自編碼器(VAE)和生成對(duì)抗網(wǎng)絡(luò)(GAN),但通常會(huì)受限于特定場(chǎng)景和數(shù)據(jù),很難提供普適的解決方案。因此,近年來基于擴(kuò)散模型(Diffusion Models)在分布式學(xué)習(xí)上表現(xiàn)出的卓越能力,擴(kuò)散模型也開始被拓展到視頻領(lǐng)域,并在視頻生成與編輯領(lǐng)域展現(xiàn)出了巨大的潛力。
在研究初期,基于擴(kuò)散模型的視頻生成和編輯任務(wù)利用文本 – 視頻數(shù)據(jù)集直接訓(xùn)練文生視頻模型以達(dá)到
原文鏈接:點(diǎn)此閱讀原文:NeurIPS 2023|有效提高視頻編輯一致性,美圖&國(guó)科大提出基于文生圖模型新方法EI2
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)