LongCat-Video-Avatar – 美團(tuán)開源的數(shù)字人視頻生成模型
美團(tuán) LongCat 團(tuán)隊(duì)傾力打造的 LongCat-Video-Avatar,是一款革新性的音頻驅(qū)動(dòng)角色動(dòng)畫模型。它能夠創(chuàng)造出栩栩如生、口型精準(zhǔn)同步的超長視頻,同時(shí)保持人物身份的恒定與動(dòng)態(tài)的自然流暢。LongCat-Video-Avatar 提供了多種靈活的生成模式,包括從音頻文本直接生成視頻(AT2V)、結(jié)合音頻文本與圖像生成視頻(ATI2V),以及強(qiáng)大的視頻續(xù)寫功能。
LongCat-Video-Avatar 究竟是什么?
LongCat-Video-Avatar 是美團(tuán) LongCat 團(tuán)隊(duì)研發(fā)的一項(xiàng)突破性技術(shù),它是一款以音頻為驅(qū)動(dòng),能夠生成逼真角色動(dòng)畫的模型。該模型的一大亮點(diǎn)在于其卓越的視頻生成能力,能夠產(chǎn)出超乎想象的逼真效果,并實(shí)現(xiàn)精準(zhǔn)的口型同步,即使是長視頻也能保持人物身份的一致性,并呈現(xiàn)出極富生命力的自然動(dòng)態(tài)。它集成了多種先進(jìn)的生成模式,如音頻與文本內(nèi)容生成視頻(AT2V)、融合音頻、文本及圖像生成視頻(ATI2V),以及能夠無縫銜接的視頻續(xù)寫功能。通過一系列精妙的技術(shù)手段,例如將音頻信號(hào)與動(dòng)作進(jìn)行解耦,有效規(guī)避了內(nèi)容重復(fù)的問題,并顯著減少了 VAE(Variational Autoencoder)在生成過程中可能出現(xiàn)的錯(cuò)誤累積,從而實(shí)現(xiàn)了高質(zhì)量、超長時(shí)視頻的生成。這使得 LongCat-Video-Avatar 在演員表演、歌手的動(dòng)態(tài)演繹、播客的視覺呈現(xiàn)、銷售演示的生動(dòng)化,乃至多人互動(dòng)場景的模擬等方面,都展現(xiàn)出巨大的應(yīng)用潛力。
LongCat-Video-Avatar 的核心亮點(diǎn)
- 多元化的視頻生成能力:支持音頻文本生成視頻(AT2V)、音頻文本與圖像生成視頻(ATI2V)以及視頻續(xù)寫等多種模式,能夠靈活應(yīng)對不同場景下的多樣化視頻制作需求。
- 卓越的動(dòng)態(tài)表現(xiàn)與身份保持:該模型能夠精準(zhǔn)地維持人物身份的連續(xù)性,生成逼真自然的表情變化、精確的口型匹配以及流暢的肢體動(dòng)作。在多人互動(dòng)場景中,它能確保對話過程的自然與流暢,營造真實(shí)的交流氛圍。
- 高品質(zhì)長視頻生成保障:通過巧妙地將音頻信號(hào)與動(dòng)作信息進(jìn)行解耦,模型在視頻的靜音片段也能生成自然的肢體活動(dòng),避免了因過度依賴音頻而產(chǎn)生的僵硬感。同時(shí),它有效減少了像素退化的問題,確保了長視頻在穩(wěn)定性和一致性方面的出色表現(xiàn)。
- 廣泛的應(yīng)用前景:無論是影視行業(yè)的演員表演、音樂人的舞臺(tái)演繹、播客內(nèi)容的視覺化、銷售演示的生動(dòng)化,還是其他各類需要高質(zhì)量視頻解決方案的領(lǐng)域,LongCat-Video-Avatar 都能提供強(qiáng)有力的支持。
LongCat-Video-Avatar 的技術(shù)精髓
- 語音與動(dòng)作的精妙解耦 (Disentangled Unconditional Guidance):通過區(qū)分語音信號(hào)本身和整體的動(dòng)作表達(dá),模型能夠在沒有語音輸入的片段中依然生成自然的肢體動(dòng)作,避免了因過度依賴語音信號(hào)而導(dǎo)致的靜態(tài)表現(xiàn),實(shí)現(xiàn)了更為生動(dòng)自然的動(dòng)態(tài)效果。
- 參考跳過的注意力機(jī)制 (Reference Skip Attention):此機(jī)制能夠有選擇性地引入?yún)⒖紙D像的信息,從而有效地保持人物身份的一致性。它能夠防止因參考圖像信息過度泄露而產(chǎn)生的“復(fù)制粘貼”式的效果,在保持視覺逼真度的同時(shí),也兼顧了動(dòng)作的多樣性。
- 跨塊潛在縫合策略 (Cross-Chunk Latent Stitching):通過減少自回歸生成過程中冗余的 VAE 解碼-編碼循環(huán),該策略能夠有效緩解像素退化的問題,并避免在長視頻生成過程現(xiàn)誤差的累積,從而確保視頻的連貫性和整體一致性。
- 基于擴(kuò)散模型的統(tǒng)一架構(gòu) (Unified DiT-based Framework):采用先進(jìn)的擴(kuò)散模型(Diffusion Model)作為底層架構(gòu),該模型能夠生成極度逼真且時(shí)長的長視頻。其統(tǒng)一的框架支持多種生成模式,涵蓋音頻文本到視頻(AT2V)、音頻文本與圖像到視頻(ATI2V)以及視頻續(xù)寫。
- 多流音頻輸入支持:模型能夠處理單流或多流音頻輸入。通過引入 L-ROPE(Learnable Relative Positional Encoding)技術(shù),實(shí)現(xiàn)了音頻信息與視覺信息的精準(zhǔn)綁定,使其能夠更好地適應(yīng)復(fù)雜的多人交互場景。
LongCat-Video-Avatar 的獲取渠道
- 官方項(xiàng)目網(wǎng)站:https://meigen-ai.github.io/LongCat-Video-Avatar/
- GitHub 代碼庫:https://github.com/MeiGen-AI/LongCat-Video-Avatar
- HuggingFace 模型中心:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
LongCat-Video-Avatar 的廣闊應(yīng)用前景
- 影視制作領(lǐng)域:可用于生成演員逼真自然的表情和精準(zhǔn)的口型同步,從而大幅降低后期特效制作成本,并顯著提升影視角色的視覺真實(shí)感。
- 音樂與娛樂行業(yè):能夠?yàn)楦枋趾吞摂M偶像創(chuàng)造生動(dòng)鮮活的肢體動(dòng)作和舞臺(tái)表演效果,極大地增強(qiáng)音樂視頻和虛擬演唱會(huì)的視覺吸引力。
- 內(nèi)容創(chuàng)作與教育培訓(xùn):能夠?yàn)橹鞑ズ徒逃ぷ髡呱筛哔|(zhì)量的視頻內(nèi)容,提升播客、視頻博客以及在線課程的趣味性和互動(dòng)性,吸引更多受眾。
- 商業(yè)及銷售推廣:能夠生成自然流暢的產(chǎn)品演示視頻和虛擬客服形象,有效提升銷售轉(zhuǎn)化率,并塑造更專業(yè)的品牌形象。
- 多人互動(dòng)場景的模擬:該模型能夠支持多人對話和互動(dòng)的逼真呈現(xiàn),維持自然的交流動(dòng)態(tài),非常適合應(yīng)用于虛擬會(huì)議、在線訪談以及社交娛樂等多種場景。

粵公網(wǎng)安備 44011502001135號(hào)