JoyGen – 京東和港大推出音頻驅動的3D說話人臉視頻生成框架
JoyGen是什么
JoyGen是由京東科技與香港大學共同開發的一種音頻驅動的3D人臉視頻生成框架,旨在實現同步的唇部動作與音頻內容,并提供卓越的視覺效果。該系統結合音頻特征與面部深度圖,生成與音頻完美匹配的唇部,并采用單步UNet架構進行高效的視頻編輯。JoyGen通過使用包含130小時中文視頻的高質量數據集進行訓練,并在開源的HDTF數據集上驗證了其卓越性能。實驗結果顯示,JoyGen在唇部與音頻的同步性及視覺質量方面達到了行業領先水平,為說話人臉視頻的編輯提供了創新的技術解決方案。
JoyGen的主要功能
- 唇部與音頻精準同步:通過音頻驅動的技術,確保視頻中人物的唇部動作與音頻內容高度一致。
- 卓越的視覺效果:生成的視頻展現逼真的視覺效果,包括自然的面部表情和細致的唇部細節。
- 視頻編輯與提升:可在現有視頻基礎上進行唇部的編輯和優化,無需重新制作整個視頻。
- 多語言支持:能夠支持中文、英文等多種語言的視頻生成,適用于多樣化的應用場景。
JoyGen的技術原理
- 第一階段:
- 音頻驅動唇部生成的3D重建模型:該模型從輸入的面部圖像中提取身份系數,以描述人物的面部特征。
- 音頻到模型:將音頻信號轉換為表情系數,以控制唇部的。
- 深度圖生成:結合身份系數和表情系數生成面部3D網格,利用可微渲染技術生成面部深度圖,為后續視頻合成提供支持。
- 第二階段:
- 視覺外觀合成與單步UNet架構:使用單步UNet網絡將音頻特征和深度圖信息融合到視頻幀生成過程中,通過編碼器將輸入圖像映射到低維潛在空間,并結合音頻特征和深度圖進行唇部的生成。
- 跨注意力機制:音頻特征通過跨注意力機制與圖像特征交互,確保生成的唇部動作與音頻信號高度一致。
- 解碼與優化:生成的潛在表示通過解碼器還原為圖像空間,最終形成視頻幀?;贚1損失函數在潛在空間與像素空間進行優化,確保生成視頻的高質量與同步性。
- 數據集支持:JoyGen使用包含130小時中文視頻的高質量數據集進行訓練,確保模型適應各種場景與語言環境。
JoyGen的項目地址
- 項目官網:https://joy-mm.github.io/JoyGen/
- GitHub倉庫:https://github.com/JOY-MM/JoyGen
- arXiv技術論文:https://arxiv.org/pdf/2501.01798
JoyGen的應用場景
- 虛擬主播與直播:創造虛擬主播,實現新聞播報、電商直播等,根據輸入音頻實時生成自然的唇部動作,提升觀眾體驗。
- 動畫制作:在動畫影視領域,快速生成與配音同步的唇部動畫,減輕動畫師的工作負擔,提高制作效率。
- 在線教育:生成虛擬教師形象,實現與教學語音同步的唇部動作,使教學視頻更加生動,增強學生學習興趣。
- 視頻內容創作:幫助創作者快速生成高質量說話人臉視頻,如虛擬人物短劇、搞笑視頻等,豐富創作形式。
- 多語言視頻生成:支持多語言,將一種語言的視頻快速轉換為其他語言版本,確保唇部動作與新語言音頻同步,便于內容的國際化傳播。
常見問題
- JoyGen支持哪些語言?:JoyGen支持中文、英文等多種語言的視頻生成,適應多樣化需求。
- 如何訪問JoyGen的項目資料?:您可以通過訪問項目官網或其GitHub倉庫獲取詳細資料和技術文檔。
- JoyGen的主要應用領域是什么?:JoyGen可廣泛應用于虛擬主播、動畫制作、在線教育、視頻創作等多個領域。
- JoyGen的技術原理是什么?:JoyGen結合音頻特征與面部深度圖,通過先進的深度學習模型生成與音頻一致的唇部。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...