GAS – 卡內(nèi)基梅隆聯(lián)合上海 AI Lab 等推出的單圖生成3D人體框架
GAS(Generative Avatar Synthesis from a Single Image)是一項(xiàng)由卡內(nèi)基梅隆大學(xué)、上海人工智能實(shí)驗(yàn)室和斯坦福大學(xué)的研究團(tuán)隊(duì)提出的重要技術(shù),旨在通過(guò)單張圖像生成高質(zhì)量、視角一致且動(dòng)態(tài)連貫的虛擬形象。GAS的創(chuàng)新之處在于將回歸型3D人體重建模型與擴(kuò)散模型的優(yōu)點(diǎn)相結(jié)合,使得從單一圖像生成的虛擬形象在外觀和結(jié)構(gòu)上都顯得異常真實(shí)。
GAS是什么
GAS(Generative Avatar Synthesis from a Single Image)是一種先進(jìn)的框架,旨在從單張圖像中合成高質(zhì)量的虛擬形象。此技術(shù)由卡內(nèi)基梅隆大學(xué)、上海人工智能實(shí)驗(yàn)室及斯坦福大學(xué)的研究人員共同開(kāi)發(fā)。GAS的核心在于結(jié)合回歸型3D人體重建模型和擴(kuò)散模型的優(yōu)勢(shì),通過(guò)3D人體重建生成中間的視角或姿態(tài),并將其作為條件輸入到視頻擴(kuò)散模型中,以實(shí)現(xiàn)高質(zhì)量的視角一致性和時(shí)間連貫性。此外,該框架引入了“模式切換器”模塊,以區(qū)分視角合成與姿態(tài)合成任務(wù),進(jìn)一步提升生成效果。

GAS的主要功能
- 一致性視角的多視角合成:GAS能夠從單張圖像生成高質(zhì)量的多視角渲染,確保不同視角下的外觀和結(jié)構(gòu)保持一致。
- 動(dòng)態(tài)姿態(tài)動(dòng)畫(huà)的時(shí)間連貫性:利用給定的姿態(tài)序列,GAS可生成流暢且真實(shí)的非剛性形變動(dòng)畫(huà),確保動(dòng)態(tài)姿態(tài)的自然連貫。
- 統(tǒng)一的框架與良好的泛化能力:該技術(shù)將視角合成與姿態(tài)合成任務(wù)相結(jié)合,通過(guò)共享模型參數(shù)和利用大規(guī)模真實(shí)數(shù)據(jù)(如網(wǎng)絡(luò)視頻)進(jìn)行訓(xùn)練,顯著提升模型對(duì)真實(shí)場(chǎng)景的適應(yīng)能力。
- 密集外觀提示:基于3D重建模型生成的密集信息作為條件輸入,確保生成的結(jié)果在外觀和結(jié)構(gòu)上具有高保真度。
GAS的技術(shù)原理
- 3D人體重建與密集條件信號(hào):GAS利用回歸型3D人體重建模型(例如單視角通用人類NeRF)從輸入圖像生成中間視角或姿態(tài),并通過(guò)將輸入圖像映射到規(guī)范空間生成密集的外觀提示。這些信息為后續(xù)的擴(kuò)散模型提供了豐富的細(xì)節(jié)和結(jié)構(gòu)信息,從而確保生成結(jié)果的高質(zhì)量和一致性。
- 視頻擴(kuò)散模型與統(tǒng)一框架:生成的中間視角或姿態(tài)作為視頻擴(kuò)散模型的條件輸入,以此生成高質(zhì)量的視角一致性和時(shí)間連貫性動(dòng)畫(huà)。GAS提出了一種統(tǒng)一框架,將視角合成和姿態(tài)合成任務(wù)合并,并共享模型參數(shù),從而實(shí)現(xiàn)自然的任務(wù)泛化。
- 模式切換器:為了有效區(qū)分視角合成與姿態(tài)合成任務(wù),GAS引入了模式切換器模塊,確保在生成視角時(shí)專注于一致性,而生成姿態(tài)時(shí)則注重真實(shí)感變形。
- 真實(shí)世界數(shù)據(jù)的泛化能力:GAS通過(guò)結(jié)合大規(guī)模真實(shí)世界視頻(如網(wǎng)絡(luò)視頻)進(jìn)行訓(xùn)練,顯著提升了對(duì)真實(shí)場(chǎng)景的適應(yīng)能力。多樣化的數(shù)據(jù)來(lái)源使得模型能夠應(yīng)對(duì)各種光照、服裝和動(dòng)作條件。
- 訓(xùn)練與推理:GAS的訓(xùn)練過(guò)程分為兩個(gè)階段:首先訓(xùn)練3D人體重建模型,然后凍結(jié)該模型并訓(xùn)練視頻擴(kuò)散模型。在推理階段,依據(jù)任務(wù)的不同(視角合成或姿態(tài)合成)采用不同的分類器引導(dǎo)(CFG)策略。
GAS的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://humansensinglab.github.io/GAS/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.06957
GAS的應(yīng)用場(chǎng)景
- 游戲與虛擬現(xiàn)實(shí)(VR):GAS能夠從單張圖像生成高質(zhì)量的虛擬角色,支持多視角和動(dòng)態(tài)姿態(tài)的連貫合成,非常適合游戲和虛擬現(xiàn)實(shí)應(yīng)用。
- 影視制作:在影視特效和動(dòng)畫(huà)制作領(lǐng)域,GAS能夠快速生成逼真的虛擬角色,顯著減少傳統(tǒng)建模和動(dòng)畫(huà)制作所需的時(shí)間與成本。
- 體育與健身:通過(guò)從單張圖像生成動(dòng)態(tài)虛擬形象,GAS可用于創(chuàng)建個(gè)性化的動(dòng)畫(huà),幫助員分析動(dòng)作或用于健身應(yīng)用。
- 時(shí)尚與服裝設(shè)計(jì):GAS能夠生成不同姿態(tài)和視角的虛擬形象,幫助設(shè)計(jì)師快速預(yù)覽服裝效果,從而提升設(shè)計(jì)效率。
常見(jiàn)問(wèn)題
- GAS生成的虛擬形象能否用于實(shí)際應(yīng)用? 是的,GAS生成的虛擬形象在游戲、影視和其他創(chuàng)意領(lǐng)域都有廣泛的應(yīng)用潛力。
- 使用GAS需要什么樣的輸入? GAS僅需一張圖像作為輸入,便可生成高質(zhì)量的虛擬形象。
- GAS的生成速度如何? 生成速度根據(jù)模型的復(fù)雜程度和硬件性能而有所不同,但整體上,GAS能夠處理實(shí)時(shí)生成需求。
- GAS的技術(shù)是否開(kāi)放? 是的,GAS的相關(guān)技術(shù)和論文已在其項(xiàng)目官網(wǎng)和arXiv上公開(kāi),歡迎研究人員和開(kāi)發(fā)者探索。
# AI工具# AI項(xiàng)目和框架# 實(shí)時(shí)協(xié)作工具# 數(shù)據(jù)分析與報(bào)告# 智能自動(dòng)化# 自然語(yǔ)言處理# 集成第三方應(yīng)用
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)