DragAnything – 快手聯(lián)合浙大等機(jī)構(gòu)開(kāi)源的可控視頻生成方法
DragAnything是什么
DragAnything 是由快手與浙江大學(xué)和新加坡國(guó)立大學(xué) Show Lab 聯(lián)合開(kāi)發(fā)的一種基于實(shí)體表示的視頻生成技術(shù)。該方法通過(guò)簡(jiǎn)單的軌跡輸入,實(shí)現(xiàn)了對(duì)視頻中任意物體的精確控制。DragAnything 利用擴(kuò)散模型的潛在特征表示每個(gè)視頻實(shí)體,克服了傳統(tǒng)方法僅依賴(lài)拖動(dòng)像素點(diǎn)而無(wú)法精確控制物體的局限性。該系統(tǒng)為用戶(hù)提供了友好的交互界面,靈活支持前景、背景及相機(jī)的控制,并在 FID、FVD 等評(píng)估指標(biāo)上創(chuàng)造了新的最佳表現(xiàn)。
DragAnything的主要功能
- 實(shí)體級(jí)控制:支持對(duì)視頻中任意實(shí)體(包括前景和背景)的精準(zhǔn)控制,超越了單純的像素級(jí)操作。
- 多實(shí)體控制:能夠同時(shí)對(duì)多個(gè)物體執(zhí)行的控制,每個(gè)物體的依據(jù)用戶(hù)定義的軌跡進(jìn)行調(diào)整。
- 友好的用戶(hù)交互:用戶(hù)可通過(guò)簡(jiǎn)單的選擇和拖動(dòng)操作來(lái)實(shí)現(xiàn)復(fù)雜的控制,無(wú)需使用如分割掩碼或深度圖等復(fù)雜輸入信號(hào)。
- 相機(jī)控制:除了物體控制,DragAnything 還能實(shí)現(xiàn)相機(jī)的縮放和平移等控制。
- 高質(zhì)量視頻生成:在保持控制準(zhǔn)確性的同時(shí),生成高品質(zhì)的視頻內(nèi)容,適用于多種應(yīng)用場(chǎng)景。
DragAnything的技術(shù)原理
- 實(shí)體表示:采用新的實(shí)體表示方法,從擴(kuò)散模型的潛在特征中提取語(yǔ)義信息,以表征視頻中的每個(gè)物體,結(jié)合物體的語(yǔ)義特征與軌跡,實(shí)現(xiàn)精準(zhǔn)的實(shí)體級(jí)控制。
- 2D 高斯表示:引入 2D 高斯表示,通過(guò)高斯分布為物體的中心區(qū)域賦予更高權(quán)重,降低邊緣像素的干擾,從而實(shí)現(xiàn)更自然的控制。
- 擴(kuò)散模型:基于擴(kuò)散模型架構(gòu)(如 Stable Video Diffusion),利用其強(qiáng)大的生成和去噪能力生成高質(zhì)量的視頻內(nèi)容。擴(kuò)散模型通過(guò)逐步去除噪聲來(lái)重建視頻幀,并結(jié)合用戶(hù)輸入的軌跡和實(shí)體表示。
- 軌跡引導(dǎo)的控制:用戶(hù)通過(guò)繪制簡(jiǎn)單的軌跡定義物體的路徑,DragAnything 將軌跡與實(shí)體表示相結(jié)合,生成符合用戶(hù)意圖的視頻內(nèi)容,避免了直接操作像素點(diǎn)的局限性,實(shí)現(xiàn)更自然和精準(zhǔn)的控制。
- 損失函數(shù)與優(yōu)化:在訓(xùn)練過(guò)程中,采用帶有掩碼的均方誤差(MSE)損失函數(shù),專(zhuān)注于優(yōu)化用戶(hù)指定區(qū)域的控制,同時(shí)保持其他區(qū)域的生成質(zhì)量。
DragAnything的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://weijiawu.github.io/draganything
- GitHub倉(cāng)庫(kù):https://github.com/showlab/DragAnything
- arXiv技術(shù)論文:https://arxiv.org/pdf/2403.07420
DragAnything的應(yīng)用場(chǎng)景
- 視頻創(chuàng)作與編輯:快速生成動(dòng)畫(huà),調(diào)整物體軌跡,從而提高創(chuàng)作效率。
- 游戲開(kāi)發(fā):生成角色動(dòng)作,增強(qiáng)玩家的互動(dòng)體驗(yàn)。
- 教育與培訓(xùn):輔助科學(xué)模擬和技能培訓(xùn),幫助理解復(fù)雜的過(guò)程。
- 廣告與營(yíng)銷(xiāo):制作動(dòng)態(tài)廣告和產(chǎn)品展示,突出產(chǎn)品特色。
- 娛樂(lè)與社交:生成互動(dòng)視頻和控制虛擬角色動(dòng)作,增強(qiáng)趣味性。
常見(jiàn)問(wèn)題
- DragAnything適用于哪些平臺(tái)? DragAnything 可以在多種操作系統(tǒng)上運(yùn)行,具體取決于用戶(hù)的需求與開(kāi)發(fā)環(huán)境。
- 使用DragAnything需要哪些技能? 用戶(hù)只需具備基本的計(jì)算機(jī)操作能力,即可輕松使用 DragAnything,無(wú)需專(zhuān)業(yè)的編程技能。
- DragAnything的輸出視頻質(zhì)量如何? DragAnything 能夠生成高質(zhì)量的視頻,適合多種應(yīng)用場(chǎng)景,并保持控制的精確性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...