360度無死角！UC伯克利華人發(fā)布3DHM框架：一張圖片即可模仿任意視頻動作

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：360度無死角！UC伯克利華人發(fā)布3DHM框架：一張圖片即可模仿任意視頻動作
關(guān)鍵字：紋理,模型,報告,姿勢,研究人員
文章來源：新智元
內(nèi)容字數(shù)：7043字

內(nèi)容摘要：

新智元報道編輯：LRS
【新智元導讀】無需標注數(shù)據(jù)，3DHM框架即可讓照片動起來，模仿目標視頻動作，衣服動起來也真實！輸入一張任意姿勢的照片，想讓照片里的人跟隨「指定視頻」來進行動作模仿并不簡單，除了肢體動作的模仿外，模型還需要對過程中衣服、人物外觀的變化進行建模。如果輸入圖像是正面的，而模仿的視頻動作包括轉(zhuǎn)身的話，模型還需要「想象」出衣服的背面樣子，以及衣服在轉(zhuǎn)動過程中飄起的樣子。
為了解決這個問題，來自加州大學伯克利分校的研究人員提出了一個兩階段的、基于擴散模型的框架3DHM，通過從單個圖像完成紋理圖來合成3D人體，然后渲染3D人體以模仿視頻中actor的動作。論文地址：https://arxiv.org/abs/2401.10889
3DHM模型中包含兩個核心組件：
1. 學習人體和服裝中不可見部分的先驗知識。
研究人員使用填充擴散（in-filling diffusion）模型，在給定的單張圖像中想象（hallucinate）出不可見部分，然后在紋理圖空間（texture map space）上訓練該模型，在姿勢和視點不變的條件下提升采樣效率。
2. 使用適當?shù)姆b和

原文鏈接：360度無死角！UC伯克利華人發(fā)布3DHM框架：一張圖片即可模仿任意視頻動作

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文