DisPose – 北大等多所高校推出的增強(qiáng)人物圖像控制動(dòng)畫質(zhì)量的技術(shù)
DisPose是什么
DisPose是由北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)和香港科技大學(xué)的研究團(tuán)隊(duì)聯(lián)合開發(fā)的一項(xiàng)先進(jìn)技術(shù),旨在提升人物圖像動(dòng)畫的質(zhì)量。該技術(shù)通過從骨骼姿態(tài)及參考圖像中提取有效的控制信號(hào),實(shí)現(xiàn)高效的動(dòng)畫控制,而無需額外的密集輸入。DisPose將姿態(tài)控制分為場引導(dǎo)和關(guān)鍵點(diǎn)對(duì)應(yīng),生成密集的場以提供區(qū)域級(jí)的指導(dǎo),同時(shí)具備對(duì)不同體型的良好適應(yīng)性。此外,DisPose還包含一個(gè)即插即用的混合ControlNet模塊,能夠顯著改善現(xiàn)有模型生成視頻的質(zhì)量和一致性。
DisPose的主要功能
- 場引導(dǎo):通過骨骼姿態(tài)生成密集的場,為視頻生成提供區(qū)域級(jí)的動(dòng)作一致性。
- 關(guān)鍵點(diǎn)對(duì)應(yīng):從參考圖像中提取與姿態(tài)關(guān)鍵點(diǎn)相對(duì)應(yīng)的擴(kuò)散特征,確保身份信息的一致性。
- 即插即用模塊:此模塊可無縫集成到現(xiàn)有的人物動(dòng)畫模型中,而無需調(diào)整現(xiàn)有模型參數(shù)。
- 質(zhì)量與一致性提升:混合ControlNet的設(shè)計(jì)使得生成視頻的質(zhì)量和外觀的一致性得到提升。
- 無需額外密集輸入:該技術(shù)無需依賴額外的深度圖等密集輸入,降低了對(duì)參考角色與驅(qū)動(dòng)視頻之間身體形狀差異的敏感性。
DisPose的技術(shù)原理
- 場估計(jì):
- 稀疏場:DWpose通過關(guān)鍵點(diǎn)追蹤估計(jì)骨骼姿態(tài),以軌跡圖的形式表示位移。
- 密集場:條件傳播(CMP)利用稀疏場和參考圖像來預(yù)測密集場,提供更為細(xì)致的信號(hào)。
- 關(guān)鍵點(diǎn)特征提取:借助預(yù)訓(xùn)練的圖像擴(kuò)散模型提取參考圖像的DIFT特征,并與關(guān)鍵點(diǎn)進(jìn)行對(duì)應(yīng),生成關(guān)鍵點(diǎn)特征圖。
- 混合ControlNet:特別設(shè)計(jì)的混合ControlNet在訓(xùn)練過程中會(huì)不斷更新,無需凍結(jié)現(xiàn)有模型的其他部分,從而便于將場引導(dǎo)和關(guān)鍵點(diǎn)對(duì)應(yīng)功能無縫集成到現(xiàn)有動(dòng)畫模型中。
- 特征融合:
- 通過特征融合層將稀疏和密集特征結(jié)合,生成最終的場引導(dǎo)信號(hào)。
- 利用多尺度點(diǎn)編碼器將關(guān)鍵點(diǎn)特征與U-Net編碼器的中間特征結(jié)合,增強(qiáng)特征之間的語義對(duì)應(yīng)。
- 控制信號(hào)集成:將場引導(dǎo)和關(guān)鍵點(diǎn)對(duì)應(yīng)作為額外的控制信號(hào),注入到潛在的視頻擴(kuò)散模型中,以生成精準(zhǔn)的人物圖像動(dòng)畫。
DisPose的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):lihxxx.github.io/DisPose
- GitHub倉庫:https://github.com/lihxxx/DisPose
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.09349
DisPose的應(yīng)用場景
- 藝術(shù)創(chuàng)作:藝術(shù)家可以利用DisPose創(chuàng)作出具有特定動(dòng)作和表情的動(dòng)態(tài)藝術(shù)作品,如動(dòng)態(tài)繪畫和數(shù)字雕塑。
- 社交媒體:在社交媒體平臺(tái)上,用戶可以生成個(gè)性化的動(dòng)態(tài)頭像或動(dòng)態(tài)表情,增加互動(dòng)的趣味性。
- 數(shù)字人和虛擬偶像:通過DisPose創(chuàng)建并控制虛擬角色的動(dòng)作和表情,廣泛應(yīng)用于直播、視頻會(huì)議或作為虛擬偶像進(jìn)行表演。
- 電影制作:在電影后期制作中,利用該技術(shù)生成或修改角色的動(dòng)作,顯著提升制作效率。
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):在VR和AR應(yīng)用中,生成可以與用戶互動(dòng)的虛擬角色,提供更加自然和真實(shí)的互動(dòng)體驗(yàn)。
常見問題
- DisPose適合哪些類型的項(xiàng)目?:DisPose適用于藝術(shù)創(chuàng)作、社交媒體互動(dòng)、數(shù)字人和虛擬偶像的制作、電影后期以及VR/AR應(yīng)用等多個(gè)領(lǐng)域。
- 使用DisPose需要哪些前提條件?:用戶需要具備一定的技術(shù)基礎(chǔ),了解骨骼動(dòng)畫和圖像處理的相關(guān)知識(shí)。
- DisPose是否支持不同的動(dòng)畫模型?:是的,DisPose設(shè)計(jì)為即插即用的模塊,可以與多種現(xiàn)有的人物動(dòng)畫模型兼容使用。
- 如何獲取DisPose的最新動(dòng)態(tài)?:用戶可以通過訪問DisPose的官方網(wǎng)站和GitHub倉庫獲取相關(guān)信息和更新。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...