賈佳亞團(tuán)隊(duì)新作MagicMirror:生成身份一致且高質(zhì)量個(gè)性化視頻,效果驚艷!
Magic Mirror,一種zero-shot身份保持視頻生成框架。

原標(biāo)題:賈佳亞團(tuán)隊(duì)新作MagicMirror:生成身份一致且高質(zhì)量個(gè)性化視頻,效果驚艷!
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):10121字
Magic Mirror: 零樣本身份保持視頻生成框架
本文介紹了Magic Mirror,一個(gè)無(wú)需微調(diào)即可生成身份一致性視頻的新型框架。它解決了現(xiàn)有視頻生成方法在身份一致性和自然動(dòng)態(tài)性之間難以平衡的問(wèn)題,并克服了數(shù)據(jù)稀缺的挑戰(zhàn)。
1. 問(wèn)題與方案
當(dāng)前視頻生成方法存在以下問(wèn)題:難以平衡身份一致性和自然動(dòng)態(tài)性;需要針對(duì)特定人物進(jìn)行微調(diào);生成的視頻動(dòng)態(tài)性不足;兩階段方法在長(zhǎng)序列生成中缺乏穩(wěn)定性;現(xiàn)有模型在文本-視頻對(duì)齊優(yōu)化中犧牲了空間保真度;高質(zhì)量、身份一致的圖像-視頻訓(xùn)練數(shù)據(jù)稀缺。Magic Mirror提出了一種單階段框架,通過(guò)三個(gè)關(guān)鍵組件解決這些問(wèn)題:
身份一致的合成數(shù)據(jù)初步訓(xùn)練:利用合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,培養(yǎng)模型的穩(wěn)健身份保持能力。
視頻數(shù)據(jù)細(xì)化訓(xùn)練:在真實(shí)視頻數(shù)據(jù)上進(jìn)行微調(diào),確保時(shí)序一致性。
CogVideoX框架集成:將模型集成到CogVideoX框架中,利用其強(qiáng)大的視頻生成能力。
2. 核心技術(shù)
Magic Mirror的核心技術(shù)包括:
條件自適應(yīng)歸一化(CAN):高效融合身份信息,提供注意力引導(dǎo)和特征分布引導(dǎo),提升身份模態(tài)特征聚合。
雙分支面部特征提取器:同時(shí)捕捉高層次身份特征和參考特定的結(jié)構(gòu)信息。
輕量級(jí)跨模態(tài)適配器:有效融合面部嵌入和文本信息。
兩階段訓(xùn)練策略:先進(jìn)行圖像預(yù)訓(xùn)練,再進(jìn)行視頻微調(diào),提高模型的魯棒性和時(shí)間一致性。
數(shù)據(jù)合成策略:利用身份保留模型生成高質(zhì)量圖像-視頻對(duì),解決數(shù)據(jù)稀缺問(wèn)題。
3. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,Magic Mirror在身份一致性和自然動(dòng)態(tài)性之間取得了良好平衡。在VBench等基準(zhǔn)測(cè)試中,其在動(dòng)態(tài)度、文本提示一致性、Inception Score以及身份保持方面均優(yōu)于現(xiàn)有方法。用戶研究也證實(shí)了其在感知質(zhì)量上的優(yōu)勢(shì)。
4. 模型架構(gòu)
Magic Mirror采用雙分支框架,分別提取高層次身份特征和面部結(jié)構(gòu)信息。這些特征通過(guò)輕量級(jí)跨模態(tài)適配器與文本和視頻特征融合,并結(jié)合CAN進(jìn)行處理,最終生成身份一致的視頻。
5. 結(jié)論
Magic Mirror是一個(gè)高效的零樣本身份保持視頻生成框架,它在保持身份一致性的同時(shí),能夠生成高質(zhì)量、動(dòng)態(tài)自然的視頻,為個(gè)性化視頻生成提供了新的途徑。未來(lái)工作將關(guān)注多身份定制化生成以及對(duì)更細(xì)粒度屬性的保持。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

粵公網(wǎng)安備 44011502001135號(hào)