OmniSync – 人民大合快手、清華推出的通用對口型框架

OmniSync是一款由中國人民大學、快手科技和清華大學攜手打造的通用對口型框架,它基于擴散變換器技術(shù),實現(xiàn)了視頻中人物口型與語音的精確同步。OmniSync采用無掩碼訓練方式,直接編輯視頻幀,無需參考幀或顯式掩碼,支持無限時長推理,同時確保面部動態(tài)的自然流暢和身份的一致性。它還引入了流匹配和動態(tài)時空分類器引導(DS-CFG)機制,解決了音頻信號弱的問題,從而實現(xiàn)精準的口型同步。
### OmniSync:口型同步技術(shù)的革新者
OmniSync,這款由頂尖學府和科技巨頭聯(lián)合推出的創(chuàng)新產(chǎn)品,正在重新定義視頻口型同步的標準。它不僅僅是一個工具,更是一項技術(shù)突破,旨在讓視頻中的口型與聲音完美契合。
### OmniSync的核心優(yōu)勢
* **無縫編輯,無限可能**:OmniSync采用無掩碼訓練范式,直接編輯視頻幀,擺脫了對參考幀或掩碼的依賴,實現(xiàn)無限時長推理,讓口型同步不再受限于時間。
* **身份保持,栩栩如生**:在精準修改嘴部區(qū)域的同時,OmniSync能夠確保頭部姿態(tài)和人物身份的穩(wěn)定一致,讓視頻人物更具真實感。
* **音頻增強,精準同步**:通過動態(tài)時空引導機制,OmniSync有效解決了音頻信號弱的問題,確保口型同步的準確性,讓聲音與畫面完美融合。
* **廣泛兼容,應用無限**:OmniSync適用于各種場景,包括風格化角色、非人類實體以及AI生成內(nèi)容,拓展了口型同步技術(shù)的應用邊界。
* **自然流暢,渾然天成**:OmniSync在無限時長推理的同時,依然能夠保持自然的面部動態(tài)和時間一致性,讓觀看體驗更加流暢。
* **遮擋無懼,穩(wěn)定可靠**:即使在面部遮擋等復雜情況下,OmniSync也能保持高質(zhì)量的口型同步,確保視頻的視覺效果。
### OmniSync的技術(shù)基石
* **擴散變換器,幀間編輯**:基于擴散變換器(Diffusion Transformers),OmniSync進行直接跨幀編輯,無需顯式掩碼或參考幀。通過迭代去噪學習映射函數(shù),并引入時間步依賴采樣策略,確保學習的穩(wěn)定性。
* **漸進噪聲初始化,空間一致**:基于流匹配(Flow Matching)技術(shù),將控制噪聲注入到原始幀中,僅執(zhí)行最后的去噪步驟,保持空間一致性,實現(xiàn)嘴部區(qū)域的精確修改,有效避免姿態(tài)不一致和身份漂移問題。
* **動態(tài)時空分類器引導,精細控制**:DS-CFG機制提供了對音頻影響的精細控制,通過時空自適應引導,平衡音頻條件強度。空間自適應引導矩陣集中引導強度在嘴部區(qū)域,時間自適應引導則隨著去噪過程的推進,逐漸降低引導強度,確保口型同步的準確性和自然度。
### 探索OmniSync的世界
* **項目官網(wǎng)**:https://ziqiaopeng.github.io/OmniSync/
* **技術(shù)論文**:https://arxiv.org/pdf/2505.21448
### OmniSync的應用前景
* **影視后期制作**:為電影、電視劇等影視作品實現(xiàn)角色口型與配音的完美匹配,提升觀影體驗。
* **虛擬現(xiàn)實體驗**:為虛擬角色提供逼真的口型同步,增強沉浸感和交互性,讓虛擬世界更加真實。
* **AI內(nèi)容創(chuàng)作**:提升AI生成視頻中口型同步的自然度,讓AI生成的內(nèi)容更具吸引力。
* **遠程視頻會議**:改善遠程通信中的口型同步效果,提升溝通效率和體驗。
* **游戲開發(fā)**:增強游戲角色的口型表現(xiàn),提升游戲的互動性和沉浸感。

粵公網(wǎng)安備 44011502001135號