AvatarGO

AI工具3個月前更新 AI工具集

350 0 0

AvatarGO – 南洋理工聯(lián)合上海 AI Lab 等推出的4D人體與物體交互生成框架

AvatarGO是什么

AvatarGO 是由南洋理工大學S-Lab、上海 AI Lab 和香港大學共同開發(fā)的一種創(chuàng)新框架，旨在從文本描述中直接生成可動畫化的4D人體與物體交互場景。該系統(tǒng)采用零樣本（zero-shot）方法，并基于預訓練的擴散模型，解決了傳統(tǒng)技術在生成日常人機交互（HOI）場景時因缺乏大量交互數(shù)據(jù)而面臨的挑戰(zhàn)。AvatarGO 的核心技術包括：LLM引導的接觸重定位，利用Lang-SAM模型從文本提示中準確識別接觸部位，確保人體與物體之間的空間關系得以精確表示；優(yōu)化則通過SMPL-X的線性混合蒙皮函數(shù)構建場，優(yōu)化人體和物體的動畫，顯著減少穿透現(xiàn)象。AvatarGO在多種人體與物體組合及多樣化姿態(tài)下展現(xiàn)出卓越的生成和動畫能力。

AvatarGO

AvatarGO的主要功能

文本生成4D交互場景：基于簡潔的文本描述，直接生成包含人體與物體交互的動態(tài)4D動畫。
精確接觸表示：準確識別人體與物體的接觸部位（如手、腳等），確保生成的3D和4D場景中人體與物體的空間關系合理。
解決穿透問題：在動畫生成過程中，有效避免人體與物體間的穿透現(xiàn)象。
多樣化的4D動畫生成：生成動態(tài)的4D動畫，支持多種人物動作和物體交互。
多種人物與物體組合支持：處理各種人物與物體的組合，包括虛擬角色（如動漫人物、超級英雄）和現(xiàn)實人物，以及各種日常物品（如武器、工具、樂器等）。

AvatarGO的技術原理

LLM引導的接觸重定位：Lang-SAM（Language Segment Anything Model）從文本描述中提取接觸部位（如“手”），通過將3D人體模型渲染為2D圖像，結合文本提示生成接觸部位的分割掩碼，并將掩碼反向投影到3D模型中，以確保物體與人體的接觸部位精確。
空間感知的分數(shù)蒸餾采樣：引入SSDS，增強與人體-物體交互相關的文本標記（如“holding”）的關注權重，幫助擴散模型理解人體與物體之間的空間關系。
對應關系感知的優(yōu)化：SMPL-X模型作為中介，為人體和物體構建場?；诰€性混合蒙皮（LBS）函數(shù)，優(yōu)化物體與人體的同步，引入新的訓練目標——對應關系感知損失，最小化人體與物體之間的空間偏差，確保動畫過程中兩者不會出現(xiàn)穿透現(xiàn)象。
基于擴散模型的3D和4D生成：
- 3D生成：運用DreamGaussian方法生成高質量的3D人體和物體模型，基于3D高斯點云表示場景，通過分數(shù)蒸餾采樣（SDS）優(yōu)化生成結果。
- 4D動畫生成：在3D模型基礎上，基于HexPlane特征和SMPL-X模型生成動態(tài)的4D動畫，優(yōu)化物體的全局參數(shù)（如旋轉、平移）和人體的序列，生成連貫且逼真的4D動畫。