KeySync – 帝國(guó)理工聯(lián)合弗羅茨瓦夫大學(xué)推出的口型同步框架
KeySync 是由帝國(guó)理工學(xué)院和弗羅茨瓦夫大合開(kāi)發(fā)的高分辨率口型同步框架,旨在精準(zhǔn)將輸入的音頻與視頻中的唇部動(dòng)作進(jìn)行對(duì)齊。該系統(tǒng)采用兩階段生成方法,首先提取音頻中的關(guān)鍵唇部動(dòng)作生成關(guān)鍵幀,然后通過(guò)插值技術(shù)平滑過(guò)渡至中間幀,確保口型與聲音的完美匹配。
KeySync是什么
KeySync 是一款高分辨率口型同步框架,由帝國(guó)理工學(xué)院與弗羅茨瓦夫大學(xué)共同推出,能夠?qū)⑤斎胍纛l與視頻中的口型動(dòng)作準(zhǔn)確對(duì)齊。該系統(tǒng)采用了兩階段框架,首先生成關(guān)鍵幀以捕捉音頻中的主要唇部動(dòng)作,接著通過(guò)插值生成流暢的過(guò)渡幀。此外,KeySync 引入了創(chuàng)新的掩碼策略,有效減少了輸入視頻中的表情泄露,并使用視頻分割模型自動(dòng)處理遮擋問(wèn)題。相比其他現(xiàn)有技術(shù),KeySync 在視覺(jué)質(zhì)量、時(shí)間連貫性以及唇部同步的準(zhǔn)確性方面表現(xiàn)更為優(yōu)異,廣泛適用于自動(dòng)配音等實(shí)際場(chǎng)景。
KeySync的主要功能
- 高分辨率口型同步:生成與輸入音頻高度對(duì)齊的高清(512×512)視頻,適應(yīng)多種實(shí)際應(yīng)用。
- 減少表情泄露:有效降低輸入視頻中的表情泄露,提升整體同步效果。
- 遮擋處理:在推理過(guò)程中自動(dòng)識(shí)別并排除遮擋物(如手部、物體等),確保生成視頻的自然性。
- 提升視覺(jué)質(zhì)量:在多個(gè)量化指標(biāo)和用戶研究中表現(xiàn)卓越,生成的視頻清晰度和連貫性顯著提高。
KeySync的技術(shù)原理
- 兩階段生成框架:
- 關(guān)鍵幀生成:首先生成一組稀疏的關(guān)鍵幀,以捕捉音頻中的主要唇部動(dòng)作,確保每個(gè)關(guān)鍵幀準(zhǔn)確反映音頻內(nèi)容,同時(shí)保持人物身份特征。
- 插值生成:在生成的關(guān)鍵幀之間進(jìn)行插值,制作出平滑且時(shí)間連貫的中間幀,以實(shí)現(xiàn)流暢的唇部動(dòng)作過(guò)渡。
- 潛擴(kuò)散模型:此模型在低維潛空間中進(jìn)行去噪,提高計(jì)算效率,通過(guò)逐步去除噪聲,將隨機(jī)噪聲轉(zhuǎn)化為結(jié)構(gòu)化的視頻數(shù)據(jù)。
- 掩碼策略:通過(guò)計(jì)算面部關(guān)鍵點(diǎn),設(shè)計(jì)覆蓋下臉區(qū)域的掩碼,保留必要的上下文信息,以避免表情泄露。在推理時(shí),結(jié)合預(yù)訓(xùn)練的視頻分割模型(如 SAM2),自動(dòng)識(shí)別和排除遮擋物,確保生成的唇部區(qū)域與遮擋物自然融合。
- 音頻與視頻對(duì)齊:使用 HuBERT 音頻編碼器將原始音頻轉(zhuǎn)換為特征表示,并基于注意力機(jī)制將其嵌入視頻生成模型中,確保生成的唇部動(dòng)作與音頻的完美對(duì)齊。
- 損失函數(shù):結(jié)合潛空間損失與像素空間損失(L2 損失),以優(yōu)化視頻生成質(zhì)量,確保生成的唇部區(qū)域與音頻對(duì)齊。
KeySync的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://antonibigata.github.io/KeySync/
- GitHub倉(cāng)庫(kù):https://github.com/antonibigata/keysync
- HuggingFace模型庫(kù):https://huggingface.co/toninio19/keysync
- arXiv技術(shù)論文:https://arxiv.org/pdf/2505.00497
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/toninio19/keysync-demo
KeySync的應(yīng)用場(chǎng)景
- 自動(dòng)配音:廣泛應(yīng)用于影視、廣告等多語(yǔ)言內(nèi)容制作,顯著提升配音與唇部動(dòng)作的對(duì)齊效果。
- 虛擬形象:為虛擬角色生成同步的唇部動(dòng)作,增強(qiáng)其真實(shí)感和表現(xiàn)力。
- 視頻會(huì)議:優(yōu)化遠(yuǎn)程溝通中的唇部同步,提升用戶的交互體驗(yàn)。
- 無(wú)障礙內(nèi)容:幫助聽(tīng)力障礙人士更好地理解視頻內(nèi)容,提升信息獲取的便利性。
- 內(nèi)容修復(fù):對(duì)視頻中的唇部動(dòng)作進(jìn)行修復(fù)或替換,提升整體內(nèi)容的質(zhì)量。
常見(jiàn)問(wèn)題
- KeySync支持哪些格式的音頻和視頻? KeySync支持多種常見(jiàn)的音頻和視頻格式,具體格式可在項(xiàng)目官網(wǎng)查看。
- 使用KeySync需要什么樣的硬件配置? 推薦使用具備較高性能的GPU以確保最佳的運(yùn)行效率和生成質(zhì)量。
- KeySync提供的輸出視頻質(zhì)量如何? KeySync生成的視頻質(zhì)量高達(dá)512×512像素,圖像清晰且動(dòng)作流暢。
- 如何獲取KeySync的最新更新和功能? 用戶可以通過(guò)關(guān)注項(xiàng)目的GitHub倉(cāng)庫(kù)和官網(wǎng)獲取最新的更新信息。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...