庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了
關(guān)鍵字：騰訊,模型,視頻,角色,數(shù)據(jù)
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

投稿發(fā)自凹非寺量子位 | 公眾號 QbitAI當(dāng)前大家常見的視頻生成是醬嬸兒的：
多數(shù)情況下只能讓一個人動起來。
而現(xiàn)在，如果提供了一張人物合照，所有人都能同時“舞起來了”。
如此看來，從單人到多人，視頻生成已經(jīng)進(jìn)入了Next Neval ~
如上成果出自騰訊混元團(tuán)隊(duì)聯(lián)合中山大學(xué)、香港科技大學(xué)推出的全新圖生視頻模型：Follow-Your-Pose-v2。
與之前的模型相比，“Follow-Your-Pose-v2”主要有4大新亮點(diǎn)：
在推理耗時更少的情況下，支持多人視頻動作生成
模型具備較強(qiáng)的泛化能力，不論年齡、服裝、人種、背景雜亂程度、動作復(fù)雜程度如何，都能生成高質(zhì)量視頻
日常生活照（含抓拍）/視頻均可用于模型訓(xùn)練及生成，無需費(fèi)力尋找高質(zhì)量圖片/視頻
面對單張圖片上多個人物的軀體相互遮擋問題，能生成具有正確前后關(guān)系的遮擋畫面，保證多人“合舞”順利完成
為了評估多角色生成效果，團(tuán)隊(duì)提出了一個包含約4000幀（約20個多角）的新基準(zhǔn)——Multi-Character。
實(shí)驗(yàn)結(jié)果顯示，模型在2個公共數(shù)據(jù)集（TikTok和TED演講）和7個指標(biāo)上的性能均優(yōu)于最新技術(shù)35%以上。

原文鏈接：庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了