AnyCharV – 港中文聯(lián)合清華等機(jī)構(gòu)推出的角色可控視頻生成框架
AnyCharV是什么
AnyCharV是由香港中文大學(xué)、清華大學(xué)深圳國(guó)際研究生院與香港大學(xué)共同開發(fā)的角色控制視頻生成框架。該技術(shù)能夠?qū)⑷我鈪⒖冀窍衽c目標(biāo)驅(qū)動(dòng)視頻結(jié)合,生成高質(zhì)量的角。AnyCharV采用了兩階段的訓(xùn)練策略,實(shí)現(xiàn)從精細(xì)到粗略的引導(dǎo):第一階段利用細(xì)粒度分割掩碼和姿態(tài)信息進(jìn)行自監(jiān)督合成;第二階段則通過(guò)自增強(qiáng)訓(xùn)練和粗粒度掩碼優(yōu)化角色細(xì)節(jié)的保留。在實(shí)驗(yàn)中,AnyCharV表現(xiàn)優(yōu)異,能夠自然保留角色的外觀細(xì)節(jié),并支持復(fù)雜的人物與物體交互以及背景融合。此外,AnyCharV還能夠與文本到圖像(T2I)和文本到視頻(T2V)模型生成的內(nèi)容相結(jié)合,展現(xiàn)出強(qiáng)大的泛化能力。
AnyCharV的主要功能
- 任意角色與目標(biāo)場(chǎng)景的合成:能夠?qū)⑷我庵付ǖ慕窍衽c目標(biāo)驅(qū)動(dòng)視頻結(jié)合,生成自然且高質(zhì)量的視頻作品。
- 高保真角色細(xì)節(jié)保留:通過(guò)自增強(qiáng)訓(xùn)練和粗粒度掩碼的引導(dǎo),確保角色的外觀和細(xì)節(jié)得以保留,避免失真現(xiàn)象。
- 復(fù)雜場(chǎng)景與人-物交互:支持角色在復(fù)雜背景下的自然交互,如與物體操作等。
- 靈活的輸入支持:能夠結(jié)合文本到圖像(T2I)和文本到視頻(T2V)模型生成的內(nèi)容,展現(xiàn)出極強(qiáng)的泛化能力。
AnyCharV的技術(shù)原理
- 第一階段:自監(jiān)督合成與細(xì)粒度引導(dǎo):此階段利用目標(biāo)角色的分割掩碼和姿態(tài)信息作為條件信號(hào),將參考角色精確合成到目標(biāo)場(chǎng)景中。引入?yún)⒖紙D像的CLIP特征與ReferenceNet提取的角色外觀特征,確保角色的身份和外觀得以保留,同時(shí)對(duì)分割掩碼進(jìn)行強(qiáng)增強(qiáng),以減少因形狀差異引起的細(xì)節(jié)丟失。
- 第二階段:自增強(qiáng)訓(xùn)練與粗粒度引導(dǎo):此階段基于生成的視頻進(jìn)行自增強(qiáng)訓(xùn)練,使用粗略的邊界框掩碼替代細(xì)分割掩碼,從而減少對(duì)角色形狀的約束。這樣的處理方式使得模型能夠更好地保留參考角色的細(xì)節(jié),并在推理階段生成更自然的視頻。
AnyCharV的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://anycharv.github.io/
- GitHub倉(cāng)庫(kù):https://github.com/AnyCharV/AnyCharV
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.08189
AnyCharV的應(yīng)用場(chǎng)景
- 影視制作:將任意角色合成到目標(biāo)場(chǎng)景中,支持復(fù)雜的角色交互,助力特效的制作。
- 藝術(shù)創(chuàng)作:結(jié)合文本生成內(nèi)容,快速制作高質(zhì)量的角,激發(fā)創(chuàng)意靈感。
- 虛擬現(xiàn)實(shí):實(shí)時(shí)生成角色與虛擬場(chǎng)景的交互視頻,增強(qiáng)用戶的沉浸體驗(yàn)。
- 廣告營(yíng)銷:快速合成個(gè)性化的廣告視頻,滿足多樣化的市場(chǎng)需求。
- 教育培訓(xùn):生成特定角色和場(chǎng)景的視頻,以輔助教學(xué)和培訓(xùn)活動(dòng)。
常見(jiàn)問(wèn)題
- AnyCharV支持哪些類型的輸入?:AnyCharV能夠處理任意角像和目標(biāo)驅(qū)動(dòng)視頻,也支持結(jié)合文本生成的內(nèi)容。
- 生成視頻的質(zhì)量如何?:AnyCharV在保留角色細(xì)節(jié)和自然交互方面表現(xiàn)出色,能夠生成高質(zhì)量的視頻。
- 如何獲取AnyCharV?:您可以訪問(wèn)項(xiàng)目官網(wǎng)或GitHub倉(cāng)庫(kù)獲取更多信息和下載鏈接。
- AnyCharV適合哪些行業(yè)?:該技術(shù)廣泛適用于影視制作、藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、廣告營(yíng)銷及教育培訓(xùn)等多個(gè)領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...