音樂引領(lǐng)舞蹈新紀(jì)元:清華大學(xué)Lodge項(xiàng)目打破短時(shí)生成瓶頸!
能夠在給定音樂條件下生成極長(zhǎng)舞蹈序列的網(wǎng)絡(luò)。
原標(biāo)題:音樂驅(qū)動(dòng)長(zhǎng)序列舞蹈生成新突破!清華大學(xué)提出Lodge,解決短時(shí)難題 | 一作李镕輝博士主講預(yù)告
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2625字
1. 引言
近年來,生成式人工智能技術(shù)的快速發(fā)展為短時(shí)舞蹈生成提供了新的可能性。然而,實(shí)際舞蹈表演的時(shí)長(zhǎng)往往超過短時(shí)段,社交舞持續(xù)3至5分鐘,舞蹈劇可能長(zhǎng)達(dá)15分鐘以上。這使得現(xiàn)有技術(shù)在生成高質(zhì)量長(zhǎng)序列舞蹈動(dòng)作時(shí)面臨顯著挑戰(zhàn)。如何在細(xì)節(jié)和全局結(jié)構(gòu)之間取得平衡,成為一個(gè)亟待解決的核心問題。
2. Lodge的提出
清華大學(xué)在讀博士李镕輝提出了Lodge,一個(gè)能夠在音樂條件下生成極長(zhǎng)舞蹈序列的網(wǎng)絡(luò)。Lodge采用兩階段粗到細(xì)的擴(kuò)散架構(gòu),引入具有表現(xiàn)力的特征舞蹈原語(yǔ),作為連接兩個(gè)擴(kuò)散模型的中間表示。這一設(shè)計(jì)有效平衡了全局編舞模式與局部動(dòng)作的質(zhì)量與表現(xiàn)力,為極長(zhǎng)舞蹈序列的生成提供了新的解決方案。
3. 兩階段擴(kuò)散架構(gòu)
Lodge通過全局?jǐn)U散和局部擴(kuò)散兩個(gè)階段實(shí)現(xiàn)長(zhǎng)舞蹈序列生成。全局?jǐn)U散階段利用Transformer網(wǎng)絡(luò)從音樂中提取節(jié)奏和結(jié)構(gòu)信息,生成稀疏的特征舞蹈原語(yǔ)(8幀關(guān)鍵動(dòng)作),以捕捉全局編排模式。這些原語(yǔ)的表達(dá)性和語(yǔ)義豐富性為后續(xù)局部擴(kuò)散提供了關(guān)鍵指導(dǎo)。
在局部擴(kuò)散階段,框架以舞蹈原語(yǔ)為引導(dǎo),生成細(xì)節(jié)豐富的短舞蹈片段,確保片段之間的連續(xù)性和表現(xiàn)力。硬提示原語(yǔ)用于片段連接,而軟提示原語(yǔ)則提升動(dòng)作的質(zhì)量與多樣性,最終生成兼具全局編排和局部細(xì)節(jié)的高質(zhì)量長(zhǎng)舞蹈序列。
4. 實(shí)驗(yàn)與結(jié)果
Lodge在FineDance和AIST++數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。FineDance的數(shù)據(jù)集平均舞蹈時(shí)長(zhǎng)152.3秒,遠(yuǎn)高于AIST++的13.3秒,成為主要的訓(xùn)練和測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果顯示,Lodge在用戶研究和標(biāo)準(zhǔn)指標(biāo)的評(píng)估中取得了最先進(jìn)的結(jié)果,生成的樣本能夠并行生成符合編舞規(guī)則的舞蹈,同時(shí)保留局部細(xì)節(jié)和物理真實(shí)感。
得益于Lodge的并行生成架構(gòu),即使生成更長(zhǎng)的舞蹈序列,推理時(shí)間也不會(huì)顯著增加。
5. 講座信息與研究方向
李镕輝將于12月17日19:00參與智猩猩AI新青年講座,主題為《音樂驅(qū)動(dòng)的高質(zhì)量長(zhǎng)序列舞蹈生成》。他目前是清華大學(xué)博士生,研究方向包括人體動(dòng)作建模與生成、AI編舞、數(shù)字人交互等,已在多個(gè)國(guó)際會(huì)議和期刊上發(fā)表論文。
感興趣的朋友可通過添加小助手“米婭”進(jìn)行報(bào)名參加,直播將為觀眾提供更深入的理解與交流機(jī)會(huì)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。