視頻版IC-Light來(lái)了!Light-A-Video提出漸進(jìn)式光照融合,免訓(xùn)練一鍵視頻重打光
在沒(méi)有任何訓(xùn)練或優(yōu)化的情況下,生成高質(zhì)量、時(shí)序一致的重打光視頻。

原標(biāo)題:視頻版IC-Light來(lái)了!Light-A-Video提出漸進(jìn)式光照融合,免訓(xùn)練一鍵視頻重打光
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4197字
Light-A-Video:無(wú)需訓(xùn)練的視頻重打光技術(shù)突破
機(jī)器之心AIxiv專欄報(bào)道了上海交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)和上海人工智能實(shí)驗(yàn)室聯(lián)合研發(fā)的Light-A-Video技術(shù),該技術(shù)實(shí)現(xiàn)了無(wú)需訓(xùn)練的視頻重打光,解決了傳統(tǒng)方法訓(xùn)練成本高和數(shù)據(jù)稀缺的難題。
1. 技術(shù)核心:零樣本視頻重打光
Light-A-Video 利用預(yù)訓(xùn)練的圖像重打光模型(如IC-Light)和視頻擴(kuò)散模型(如AnimateDiff和CogVideoX),結(jié)合創(chuàng)新的Consistent Light Attention (CLA)模塊和Progressive Light Fusion (PLF)策略,實(shí)現(xiàn)了對(duì)視頻序列的零樣本光照控制。無(wú)需任何訓(xùn)練,即可生成高質(zhì)量、時(shí)序一致的重打光視頻。
2. 關(guān)鍵模塊:CLA和PLF
CLA模塊通過(guò)增強(qiáng)跨幀交互,穩(wěn)定背景光源的生成,減少閃爍問(wèn)題。它采用雙重注意力融合策略,保留原始幀的高頻細(xì)節(jié),并通過(guò)時(shí)間維度的平均處理減少光照源的高頻抖動(dòng)。
PLF策略基于光傳輸理論的光照線性融合特性,通過(guò)逐步混合重打光外觀和原始視頻外觀,確保時(shí)間連貫性。在視頻擴(kuò)散模型的去噪過(guò)程中,PLF逐步引導(dǎo)視頻向目標(biāo)光照方向過(guò)渡,實(shí)現(xiàn)平滑的光照過(guò)渡。
3. Light-A-Video的整體架構(gòu)
Light-A-Video的架構(gòu)包含以下步驟:1. 利用視頻擴(kuò)散模型對(duì)原始視頻加噪;2. 利用IC-Light進(jìn)行逐幀重打光,并使用CLA模塊穩(wěn)定背景光源;3. 使用PLF策略逐步融合重打光目標(biāo)和原始視頻細(xì)節(jié),最終生成時(shí)序穩(wěn)定、光照一致的重打光視頻。
4. 實(shí)驗(yàn)結(jié)果與優(yōu)勢(shì)
在DAVIS和Pixabay數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,Light-A-Video在多個(gè)評(píng)估指標(biāo)上優(yōu)于現(xiàn)有方法,尤其在動(dòng)作保留方面表現(xiàn)出色。此外,它支持對(duì)完整視頻或僅前景序列進(jìn)行重打光,并能生成與文字描述相符的背景,兼容多種視頻生成框架。
5. 未來(lái)展望
未來(lái)研究將關(guān)注動(dòng)態(tài)光照條件下的處理,進(jìn)一步提升視頻重打光的靈活性與適應(yīng)性,擴(kuò)展其應(yīng)用范圍。
6. 總結(jié)
Light-A-Video 作為首個(gè)無(wú)需訓(xùn)練的視頻重打光模型,其高效性、穩(wěn)定性和廣泛的適用性,為視頻編輯領(lǐng)域帶來(lái)了突破性的進(jìn)展,為視頻內(nèi)容創(chuàng)作提供了更多可能性。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)