視頻一鍵拆分PS層!DeepMind新模型效果碾壓同級,物體、背景完美分離,還能腦補
新智元報道編輯:LRS【新智元導讀】DeepMind的研究人員開發(fā)了一種視頻分層新方法,可以無需假設(shè)背景靜止或精確的相機姿態(tài),就能將視頻分解成包含物體及其效果(如陰影和反射)的多個層,提升了視頻編輯的靈活性和效率。視頻數(shù)據(jù)中通常會包含動態(tài)世界中的復雜信號,比如相機、關(guān)節(jié)移動、復雜的場景效果以及物體之間的交互。如果能自動化地把視頻分解成一組語義上有意義的、半透明的層,分離前景對象和背景的話,類似PS中的圖片,就可以極大提升視頻的編輯效率和直觀性。現(xiàn)有方法在推斷對象及其效果之間復雜的時空相關(guān)性時,只能處理靜態(tài)背景或帶有精確相機和深度估計數(shù)據(jù)的視頻,并且無法補全被遮擋區(qū)域,極大限制了可應(yīng)用范圍。最近,Google DeepMind、馬里蘭大學帕克分校和魏茨曼科學研究所的研究人員共同提出了一個全新的分層視頻分解框架,無需假設(shè)背景是靜態(tài)的,也不需要相機姿態(tài)或深度信息,就能生成清晰、完整的圖像層,甚至還能對被遮擋動態(tài)區(qū)域進行補全。論文鏈接:https://arxiv.org/pdf/2411.16683項目地址:https://gen-omnimatte.github.io/該框架的其核心思想是訓練一個視頻擴散模型,利用其強大生成式先驗知識來克服之前方法的限制。1.模型的內(nèi)部特征可以揭示物體與視頻效果之間的聯(lián)系,類似于把視頻擴散模型的內(nèi)部特征應(yīng)用于分析任務(wù);2.模型可以直接利用先驗補全層分解中的被遮擋區(qū)域,包括動態(tài)區(qū)域,而之前方法在先驗信息有限的情況下無法實現(xiàn)。在實驗階段,研究人員驗證了,只需要一個小型、精心策劃的數(shù)據(jù)集,就能夠處理包含軟陰影、光澤反射、飛濺的水等多種元素的日常拍攝視頻,最終輸出高質(zhì)量的分解和編輯結(jié)果。最牛「視頻分層」模型由于真實的分層視頻數(shù)據(jù)很少,并且預訓練模型已經(jīng)在生成任務(wù)中學習到了物體及其效果之間的關(guān)聯(lián),所以希望通過微調(diào)模型來發(fā)揮這種能力,使用小型的分層視頻數(shù)據(jù)集進行微調(diào)。基礎(chǔ)視頻擴散模型研究人員基于文本到視頻的生成器Lumiere,開發(fā)出了一個可用于移除物體及其效果的模型Casper基礎(chǔ)模型Lumiere先從文本提示生成一個80幀、分辨率為128×128像素的視頻,再利用空間超分辨率(SSR)模型將基礎(chǔ)模型的輸出上采樣到1024×1024像素的分辨率。Lumiere inpainting模型對原模型進行微調(diào),輸入條件為「遮罩的RGB視頻」和「二進制掩碼視頻」,然后使用相同的SSR,以實現(xiàn)高分辨率質(zhì)量。Casper基于inpainting模型進行微調(diào),對物體及視頻效果進行移除,保持相同的模型架構(gòu)。使用三元掩碼進行物體和效果移除原始的Lumiere inpainting模型需要輸入一個二元掩碼來指示需要修復(inpaint)的區(qū)域和需要保留的區(qū)域。Casper還引入了額外的不確定性,即所謂的「保留」區(qū)域并不完全保留,也可能為了擦除陰影而修改目標區(qū)域。研究人員提出了三元掩碼(Trimask)條件M,區(qū)分出需要移除的對象(M=0)、需要保留的對象(M=1)以及可能包含需要移除或保留效果的背景區(qū)域(M=0.5)。為了獲得干凈的背景視頻,再使用一個背景三元掩碼,將所有物體都標記為需要移除的區(qū)域,背景標記為可能需要修改的區(qū)域。使用SegmentAnything2獲得二進制對象掩碼,然后將單個物體作為保留區(qū)域,其余物體標記為移除區(qū)域。在推理過程中,Casper的輸入包括描述目標移除場景的文本提示、輸入視頻、三元掩碼和128px分辨率的噪聲視頻的拼接。模型在沒有分類器引導的情況下進行256個DDPM采樣步驟進行推理(一個80幀的視頻大約需要12分鐘),采用時間多擴散技術(shù)來處理更長的視頻。視頻生成器中的效果關(guān)聯(lián)先驗為了探究Lumiere對對象效果關(guān)聯(lián)的內(nèi)在理解,研究人員分析了使用SDEdit在給定視頻去噪過程中的自注意力模式,測量了與感興趣對象相關(guān)的查詢token和鍵token之間的自注意力權(quán)重。可以觀察到,陰影區(qū)域的查詢token對對象區(qū)域展現(xiàn)出更高的注意力值,表明預訓練模型能夠有效關(guān)聯(lián)對象及其效果。訓練數(shù)據(jù)構(gòu)造研究人員從四個類別中構(gòu)造了一個包含真實和合成視頻示例的訓練數(shù)據(jù)集。Omnimatte,從現(xiàn)有方法的結(jié)果中收集了31個場景,形成輸入視頻、輸入三元掩碼和目標背景視頻的訓練元組。場景大多來自DAVIS數(shù)據(jù)集,以靜態(tài)背景和單個對象為特色,包含現(xiàn)實世界視頻中陰影和反射。Tripod,通過互聯(lián)網(wǎng)補充了15個視頻,由固定相機拍攝,包含進出場景的對象、水效果(例如,反射、飛濺、波紋)和環(huán)境背景。然后通過Ken Burns效果增強視頻,以模擬相機。Kubric,包含569個合成視頻,在Blender中渲染多對象場景并使對象透明。此外,研究人員觀察到許多現(xiàn)實世界場景在一個場景中會展示同一類型對象的多個實例,例如狗、行人或車輛,所以還特意生成了包含重復對象的場景,以訓練模型處理多個相似對象。對象粘貼(Object-Paste),從YouTube-VOS數(shù)據(jù)集中的真實視頻合成了1024個視頻元組,使用SegmentAnything2從隨機視頻裁剪對象,并將其粘貼到目標視頻上。訓練輸入和目標分別是合成的視頻和原始視頻,可以加強模型的修復和背景保留能力。訓練數(shù)據(jù)的文本提示由BLIP-2描述,描述了對象效果移除模型應(yīng)該學會生成的目標視頻;通過空間水平翻轉(zhuǎn)、時間翻轉(zhuǎn)和隨機裁剪到128×128像素分辨率來增強數(shù)據(jù)集。實驗結(jié)果定性分析在下圖「船」(boat)的例子中,現(xiàn)有的方法無法將船的尾跡從背景層中分離出來,而文中提出的方法可以正確地將其放置在船的層中。「馬」的例子中,Omnimatte3D和OmnimatteRF因為3D感知背景表示對相機姿態(tài)估計的質(zhì)量很敏感,所以背景層很模糊,無法在最后一行中恢復出被遮擋的馬。在物體移除方面,視頻修復模型無法移除輸入掩碼外的軟陰影和反射;ObjectDrop可以移除cartoon和parkour中的陰影,但處理每一幀,并且沒有全局上下文的情況下修復區(qū)域,會導致不一致的幻覺。定量分析研究人員采用OmnimatteRF評估協(xié)議來評估十個合成場景的背景層重建效果,包括5個電影場景和5個由Kubric生成的場景,每個場景都有一個對應(yīng)的真實背景,不包含前景對象和效果。使用峰值信噪比(PSNR)和Learned Perceptual Image Patch Similarity(LPIPS)作為評估指標。結(jié)果顯示,Omnimatte和Layered Neural Atlas使用2D模型,因此難以處理視差;Omnimatte3D在兩個案例中未能構(gòu)建背景場景模型,并且在電影場景中的靜止前景對象處理上存在困難。總體而言,文中的方法在兩個指標上都取得了最佳性能。參考資料:https://arxiv.org/pdf/2411.16683

粵公網(wǎng)安備 44011502001135號