LivePortrait是什么
LivePortrait是快手推出的一款開源人像動畫生成框架,旨在高效且靈活地將驅動視頻中的表情和姿態轉移至靜態或動態人像,從而創造出極具表現力的視頻內容。該技術依托隱式關鍵點框架,結合大規模高質量訓練數據及混合訓練策略,顯著提升了模型的泛化能力與動作控制精度。在RTX 4090 GPU上,LivePortrait的單幀生成速度高達12.8毫秒,顯示出卓越的處理效率,并且仍具備進一步的優化空間。開源社區對這一項目反響熱烈,LivePortrait的GitHub頁面提供了豐富的使用指南和資源。
LivePortrait的主要功能
- 表情與姿態轉移:LivePortrait能夠實時將驅動視頻中的表情和姿態遷移至靜態或動態人像,生成生動的動畫效果。
- 高效生成:在RTX 4090 GPU上,框架的單幀生成速度達到12.8毫秒,展現出極高的處理速度。
- 強大的泛化能力:通過結合視頻與圖片的混合訓練策略以及海量高質量訓練數據,LivePortrait展現出良好的適應性,能夠處理各種風格和身份的人像。
- 控制能力增強:采用隱式關鍵點和輕量級MLP網絡,LivePortrait提升了對動畫生成過程的控制能力。
- 多樣風格支持:該框架能夠處理多種風格的人像,包括真實人物及風格化(如動漫)人像。
- 高分辨率動畫生成:支持生成高分辨率動畫,提供更加清晰的視覺體驗。
- 適應性模塊:設計了貼合模塊及眼部、嘴部重定向模塊,以適應裁剪、多人合照等復雜場景,避免像素錯位問題。
LivePortrait的技術原理
- 基礎模型訓練:初期階段主要優化外觀提取器、提取器、扭曲模塊和解碼器,模型從零開始訓練。
- 拼接與重定向模塊訓練:在基礎模型訓練完成后,凍結外觀提取器、提取器、扭曲模塊和解碼器,第二階段專注于拼接和重定向模塊的優化。
- 視頻-圖像混合訓練:將每張圖片視為視頻片段,模型在視頻和圖片上同時訓練,以提升泛化能力。
- 升級的網絡結構:將隱式關鍵點估計網絡、頭部姿態估計網絡和表情變形估計網絡整合為一個單一模型,采用ConvNeXt-V2-Tiny結構,直接估計輸入圖片的隱式關鍵點、頭部姿態和表情變形。
- 關鍵點引導的隱式關鍵點優化:引入2D關鍵點捕捉微表情,并用關鍵點引導的損失優化隱式關鍵點。
- 級聯損失函數:采用face vid2vid的隱式關鍵點不變損失、關鍵點先驗損失、頭部姿態損失和變形先驗損失,并結合感知和GAN損失來提升紋理質量。
LivePortrait的項目地址
- 項目官網:https://liveportrait.github.io/
- GitHub倉庫:https://github.com/KwaiVGI/LivePortrait
- Hugging Face模型庫:https://huggingface.co/spaces/KwaiVGI/LivePortrait
- arXiv技術論文:https://arxiv.org/pdf/2407.03168
LivePortrait的應用場景
- 社交媒體內容創作:用戶可以將自己的照片或視頻轉換為動態內容,適用于社交媒體平臺,增強互動性與吸引力。
- 虛擬主播與直播:利用LivePortrait技術,能夠創建虛擬形象進行直播或視頻制作,無需真人出鏡,適用于游戲直播、教育講解等場景。
- 影視與動畫制作:在影視后期制作中,LivePortrait可用于角色表情捕捉與動畫生成,提高制作效率,降低成本。
- 廣告與營銷:企業可以使用LivePortrait技術制作吸引人的廣告視頻,通過動態人物形象抓住潛在客戶的眼球。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...