AvatarGO – 南洋理工聯(lián)合上海 AI Lab 等推出的4D人體與物體交互生成框架
AvatarGO是什么
AvatarGO 是由南洋理工大學S-Lab、上海 AI Lab 和香港大學共同開發(fā)的一種創(chuàng)新框架,旨在從文本描述中直接生成可動畫化的4D人體與物體交互場景。該系統(tǒng)采用零樣本(zero-shot)方法,并基于預訓練的擴散模型,解決了傳統(tǒng)技術在生成日常人機交互(HOI)場景時因缺乏大量交互數(shù)據(jù)而面臨的挑戰(zhàn)。AvatarGO 的核心技術包括:LLM引導的接觸重定位,利用Lang-SAM模型從文本提示中準確識別接觸部位,確保人體與物體之間的空間關系得以精確表示;優(yōu)化則通過SMPL-X的線性混合蒙皮函數(shù)構建場,優(yōu)化人體和物體的動畫,顯著減少穿透現(xiàn)象。AvatarGO在多種人體與物體組合及多樣化姿態(tài)下展現(xiàn)出卓越的生成和動畫能力。
AvatarGO的主要功能
- 文本生成4D交互場景:基于簡潔的文本描述,直接生成包含人體與物體交互的動態(tài)4D動畫。
- 精確接觸表示:準確識別人體與物體的接觸部位(如手、腳等),確保生成的3D和4D場景中人體與物體的空間關系合理。
- 解決穿透問題:在動畫生成過程中,有效避免人體與物體間的穿透現(xiàn)象。
- 多樣化的4D動畫生成:生成動態(tài)的4D動畫,支持多種人物動作和物體交互。
- 多種人物與物體組合支持:處理各種人物與物體的組合,包括虛擬角色(如動漫人物、超級英雄)和現(xiàn)實人物,以及各種日常物品(如武器、工具、樂器等)。
AvatarGO的技術原理
- LLM引導的接觸重定位:Lang-SAM(Language Segment Anything Model)從文本描述中提取接觸部位(如“手”),通過將3D人體模型渲染為2D圖像,結合文本提示生成接觸部位的分割掩碼,并將掩碼反向投影到3D模型中,以確保物體與人體的接觸部位精確。
- 空間感知的分數(shù)蒸餾采樣:引入SSDS,增強與人體-物體交互相關的文本標記(如“holding”)的關注權重,幫助擴散模型理解人體與物體之間的空間關系。
- 對應關系感知的優(yōu)化:SMPL-X模型作為中介,為人體和物體構建場?;诰€性混合蒙皮(LBS)函數(shù),優(yōu)化物體與人體的同步,引入新的訓練目標——對應關系感知損失,最小化人體與物體之間的空間偏差,確保動畫過程中兩者不會出現(xiàn)穿透現(xiàn)象。
- 基于擴散模型的3D和4D生成:
- 3D生成:運用DreamGaussian方法生成高質量的3D人體和物體模型,基于3D高斯點云表示場景,通過分數(shù)蒸餾采樣(SDS)優(yōu)化生成結果。
- 4D動畫生成:在3D模型基礎上,基于HexPlane特征和SMPL-X模型生成動態(tài)的4D動畫,優(yōu)化物體的全局參數(shù)(如旋轉、平移)和人體的序列,生成連貫且逼真的4D動畫。
AvatarGO的項目地址
- 項目官網(wǎng):https://yukangcao.github.io/AvatarGO
- GitHub倉庫:https://github.com/yukangcao/AvatarGO
- arXiv技術論文:https://arxiv.org/pdf/2410.07164
AvatarGO的應用場景
- 虛擬導購員:在商店內為顧客提供商品信息及購物建議。
- 展廳講解員:在博物館或展廳中介紹展品和產(chǎn)品信息。
- 數(shù)字大堂經(jīng)理:在銀行或營業(yè)廳提供咨詢與引導服務。
- 車載虛擬助手:在汽車中作為智能助手,提供陪伴與互動體驗。
- VR/AR內容創(chuàng)作:生成4D動畫,用于虛擬現(xiàn)實和增強現(xiàn)實中的角色與交互設計。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...