DisPose是一項由北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和香港科技大學(xué)的研究團(tuán)隊共同開發(fā)的先進(jìn)技術(shù),旨在提升人物圖像動畫的質(zhì)量。該技術(shù)通過從骨骼姿態(tài)和參考圖像中提取有效的控制信號,實(shí)現(xiàn)了無需額外密集輸入的動畫效果。DisPose的核心在于將姿態(tài)控制分解為場引導(dǎo)和關(guān)鍵點(diǎn)對應(yīng),從而生成密集的場,以提供區(qū)域級的引導(dǎo),同時具備對不同體型的良好泛化能力。
DisPose是什么
DisPose是一個創(chuàng)新的技術(shù)解決方案,它通過提取骨骼姿態(tài)和參考圖像中的有效控制信號,顯著提高人物圖像動畫的質(zhì)量。該技術(shù)不依賴于額外的密集輸入,能夠?qū)⒆藨B(tài)控制有效分解為場引導(dǎo)與關(guān)鍵點(diǎn)對應(yīng),進(jìn)而生成密集場以實(shí)現(xiàn)區(qū)域級別的引導(dǎo),同時保持對不同體型的適應(yīng)能力。DisPose還包括一個即插即用的混合ControlNet模塊,旨在提升現(xiàn)有視頻生成模型的質(zhì)量和一致性。
DisPose的主要功能
- 場引導(dǎo):從骨骼姿態(tài)生成密集場,提供區(qū)域級的引導(dǎo),增強(qiáng)視頻中的動作一致性。
- 關(guān)鍵點(diǎn)對應(yīng):提取與參考圖像中的姿態(tài)關(guān)鍵點(diǎn)相關(guān)的擴(kuò)散特征,確保身份信息的一致性。
- 即插即用模塊:作為插件模塊,能夠無縫整合到現(xiàn)有的人物圖像動畫模型中,無需對現(xiàn)有模型參數(shù)進(jìn)行修改。
- 質(zhì)量與一致性提升:混合ControlNet模塊提升生成視頻的整體質(zhì)量和視覺一致性。
- 無需額外密集輸入:在不依賴額外密集輸入(如深度圖)的情況下工作,降低對參考角色和驅(qū)動視頻間身體形狀差異的敏感性。
DisPose的技術(shù)原理
- 場估計:
- 稀疏場:利用DWpose對骨骼姿態(tài)進(jìn)行估計,通過關(guān)鍵點(diǎn)追蹤位移,表示為軌跡圖。
- 密集場:條件傳播(CMP)基于稀疏場和參考圖像,預(yù)測密集場,提供更精細(xì)的信號。
- 關(guān)鍵點(diǎn)特征提取:通過預(yù)訓(xùn)練的圖像擴(kuò)散模型提取參考圖像的DIFT特征,并將這些特征與關(guān)鍵點(diǎn)相對應(yīng),形成關(guān)鍵點(diǎn)特征圖。
- 混合ControlNet:設(shè)計了混合ControlNet,在訓(xùn)練過程中進(jìn)行更新,無需凍結(jié)現(xiàn)有模型的其他部分,便于將場引導(dǎo)和關(guān)鍵點(diǎn)對應(yīng)無縫整合到現(xiàn)有動畫模型中。
- 特征融合:
- 通過特征融合層將稀疏和密集特征結(jié)合,生成最終的場引導(dǎo)信號。
- 基于多尺度點(diǎn)編碼器將關(guān)鍵點(diǎn)特征與U-Net編碼器的中間特征結(jié)合,增強(qiáng)特征的語義對應(yīng)性。
- 控制信號集成:將場引導(dǎo)和關(guān)鍵點(diǎn)對應(yīng)作為額外的控制信號,注入到潛在的視頻擴(kuò)散模型中,以生成準(zhǔn)確的人物圖像動畫。
DisPose的項目地址
- 項目官網(wǎng):lihxxx.github.io/DisPose
- GitHub倉庫:https://github.com/lihxxx/DisPose
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.09349
DisPose的應(yīng)用場景
- 藝術(shù)創(chuàng)作:藝術(shù)家可以使用DisPose創(chuàng)作具有特定動作和表情的動態(tài)藝術(shù)作品,如動態(tài)繪畫和數(shù)字雕塑。
- 社交媒體:在社交平臺上,用戶能夠生成個性化的動態(tài)頭像或動態(tài)表情,提升互動的趣味性。
- 數(shù)字人和虛擬偶像:創(chuàng)建和控制虛擬角色的動作和表情,廣泛應(yīng)用于直播、視頻會議及虛擬偶像表演。
- 電影制作:在電影后期制作中,DisPose可以生成或修改角色的動作,從而提高制作效率。
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):在VR和AR應(yīng)用中,生成與用戶互動的虛擬角色,提供更加自然和逼真的互動體驗(yàn)。
常見問題
- DisPose適用于哪些平臺?:DisPose可以集成到多種現(xiàn)有的人物圖像動畫模型中,兼容性強(qiáng)。
- 使用DisPose需要什么樣的計算資源?:雖然DisPose可在普通的計算環(huán)境中運(yùn)行,但高性能的GPU將顯著提高處理速度和效果。
- 如何獲取DisPose的技術(shù)支持?:用戶可以通過項目官網(wǎng)或GitHub倉庫聯(lián)系開發(fā)團(tuán)隊,獲取技術(shù)支持和更新信息。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...