ConsisID是一種由北京大學(xué)與鵬城實(shí)驗(yàn)室等機(jī)構(gòu)聯(lián)合開發(fā)的文本到視頻(Text-to-Video,IPT2V)生成模型。它利用頻率分解技術(shù)確保視頻中人物身份的一致性。該模型采用免調(diào)優(yōu)(tuning-free)Diffusion Transformer(DiT)架構(gòu),結(jié)合低頻全局特征與高頻細(xì)節(jié)特征,運(yùn)用分層訓(xùn)練策略生成高質(zhì)量、可編輯且身份一致性強(qiáng)的視頻。ConsisID在多個評估維度上超越了現(xiàn)有技術(shù),推動了身份一致性視頻生成技術(shù)的進(jìn)步。
ConsisID是什么
ConsisID是一個先進(jìn)的文本到視頻生成模型,旨在通過頻率分解技術(shù)保持視頻中人物的身份一致性。該模型采用免調(diào)優(yōu)的Diffusion Transformer架構(gòu),結(jié)合低頻全局特征與高頻細(xì)節(jié)特征,通過分層訓(xùn)練策略,能夠生成高質(zhì)量且易于編輯的視頻內(nèi)容。ConsisID在多個評估標(biāo)準(zhǔn)上表現(xiàn)出色,推進(jìn)了身份一致性視頻生成的技術(shù)發(fā)展。

ConsisID的主要功能
- 身份保持:在生成視頻時,確保人物身份的一致性,使視頻中的人物特征與提供的參考圖像相符合。
- 高質(zhì)量視頻生成:生成視覺上真實(shí)、細(xì)節(jié)豐富的視頻內(nèi)容。
- 無須微調(diào):作為免調(diào)優(yōu)模型,用戶無需針對每個新案例進(jìn)行微調(diào),使用更加簡便。
- 可編輯性:用戶可以通過文本提示控制視頻內(nèi)容,包括人物的動作、表情以及背景等元素。
- 泛化能力:能夠處理訓(xùn)練數(shù)據(jù)之外的人物,提升模型的適應(yīng)性。
ConsisID的技術(shù)原理
- 頻率分解:
- 低頻控制:利用全局人臉特征提取器,將參考圖像和人臉關(guān)鍵點(diǎn)編碼成低頻特征,融入網(wǎng)絡(luò)的淺層結(jié)構(gòu),降低訓(xùn)練難度。
- 高頻控制:設(shè)計(jì)局部人臉特征提取器,捕捉高頻細(xì)節(jié)并注入Transformer模塊,以增強(qiáng)模型對細(xì)微特征的保留能力。
- 層次化訓(xùn)練策略:
- 粗到細(xì)訓(xùn)練:模型先學(xué)習(xí)全局信息,再逐步細(xì)化到局部信息,確保視頻在空間和時間上的一致性。
- 動態(tài)掩碼損失(Dynamic Mask Loss):通過人臉mask約束損失函數(shù),使模型專注于人臉區(qū)域的生成。
- 動態(tài)跨臉損失(Dynamic Cross-Face Loss):引入跨面部的參考圖像,提升模型對未見身份的泛化能力。
- 特征融合:通過人臉識別骨干網(wǎng)絡(luò)和CLIP圖像編碼器提取特征,并基于Q-Former融合特征,生成包含高頻語義信息的內(nèi)在身份特征。
- 交叉注意力機(jī)制:利用交叉注意力機(jī)制,使模型能夠與預(yù)訓(xùn)練模型生成的視覺標(biāo)記進(jìn)行有效互動,增強(qiáng)DiT中的高頻信息。
ConsisID的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):pku-yuangroup.github.io/ConsisID
- GitHub倉庫:https://github.com/PKU-YuanGroup/ConsisID
- HuggingFace模型庫:https://huggingface.co/datasets/BestWishYsh/ConsisID
- arXiv技術(shù)論文:https://arxiv.org/pdf/2411.17440
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/BestWishYsh/ConsisID
ConsisID的應(yīng)用場景
- 個性化娛樂:用戶可以創(chuàng)建與自己或指定人物相似的虛擬形象,用于社交媒體或個人娛樂。
- 虛擬主播:在新聞播報或網(wǎng)絡(luò)直播中,利用ConsisID生成的虛擬主播進(jìn)行24小時不間斷的工作。
- 電影和電視制作:在電影后期制作中,用于生成特效場景中的角色,或創(chuàng)建全新的虛擬角色。
- 游戲行業(yè):為游戲角色設(shè)計(jì)提供原型,或在游戲中生成與玩家相似的非玩家角色(NPC)。
- 教育和模擬訓(xùn)練:創(chuàng)造歷史人物或模擬特定場景,用于教育目的或?qū)I(yè)培訓(xùn),例如醫(yī)療模擬和駕駛訓(xùn)練。
常見問題
- ConsisID的生成速度如何?:ConsisID的生成速度受模型復(fù)雜性和輸入內(nèi)容的影響,通常情況下可以快速生成高質(zhì)量視頻。
- 是否需要專業(yè)知識才能使用ConsisID?:不需要,ConsisID設(shè)計(jì)為免調(diào)優(yōu),用戶只需提供文本提示即可生成視頻。
- ConsisID是否支持多種語言?:目前,ConsisID主要支持中文和英文,未來可能會擴(kuò)展其他語言支持。
- 生成的視頻可以用于商業(yè)用途嗎?:用戶在使用生成的視頻時,需遵循相關(guān)的法律法規(guī)和使用條款。
- 是否可以自定義生成的視頻內(nèi)容?:是的,用戶可以通過文本提示自定義人物的動作、表情和背景等元素。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號