李飛飛團(tuán)隊(duì)統(tǒng)一動(dòng)作與語(yǔ)言,新的多模態(tài)模型不僅超懂指令,還能讀懂隱含情緒
造出指令遵循能力卓越的多模態(tài)語(yǔ)言模型。

原標(biāo)題:李飛飛團(tuán)隊(duì)統(tǒng)一動(dòng)作與語(yǔ)言,新的多模態(tài)模型不僅超懂指令,還能讀懂隱含情緒
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7982字
斯坦福大學(xué)研發(fā)多模態(tài)語(yǔ)言模型,實(shí)現(xiàn)富有表現(xiàn)力的動(dòng)作生成與理解
近日,斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出了一種全新的多模態(tài)語(yǔ)言模型,能夠?qū)崿F(xiàn)富有表現(xiàn)力的3D人體動(dòng)作生成和理解。該模型能夠同時(shí)接受音頻和文本輸入,生成與語(yǔ)音內(nèi)容協(xié)調(diào)一致的動(dòng)作,并支持動(dòng)作編輯。
1. 研究背景與動(dòng)機(jī)
人類溝通交流包含豐富的多模態(tài)信息,理解和生類動(dòng)作需要理解這些多模態(tài)行為。該研究利用多模態(tài)語(yǔ)言模型,將語(yǔ)音、文本和動(dòng)作生成任務(wù)統(tǒng)一在一個(gè)框架下,以實(shí)現(xiàn)更自然、更富有表現(xiàn)力的動(dòng)作生成。
2. 模型架構(gòu)與訓(xùn)練方法
該模型將動(dòng)作分解為不同身體部位(臉、手、上身、下身)的token,并結(jié)合文本和語(yǔ)音token,構(gòu)建統(tǒng)一的多模態(tài)詞匯表。采用兩階段訓(xùn)練流程:首先進(jìn)行預(yù)訓(xùn)練,對(duì)齊不同模態(tài)的信息;然后進(jìn)行下游任務(wù)訓(xùn)練,使模型遵循各種任務(wù)指令。
預(yù)訓(xùn)練階段包含兩種模態(tài)對(duì)齊:組合動(dòng)作對(duì)齊(建模不同身體部位間的空間和時(shí)間關(guān)系)和音頻-文本對(duì)齊(利用大量可用的音頻-文本數(shù)據(jù))。后訓(xùn)練階段則通過(guò)指令微調(diào),使模型能夠執(zhí)行各種下游任務(wù),例如伴語(yǔ)手勢(shì)生成和文本到動(dòng)作生成。
3. 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果表明,該模型在伴語(yǔ)手勢(shì)生成任務(wù)上優(yōu)于現(xiàn)有SOTA模型,尤其在數(shù)據(jù)稀缺的情況下優(yōu)勢(shì)更明顯。模型能夠生成與語(yǔ)音同步的自然手勢(shì)動(dòng)作,并能根據(jù)文本指令編輯動(dòng)作序列。
實(shí)驗(yàn)還驗(yàn)證了預(yù)訓(xùn)練策略的重要性。移除任何一個(gè)預(yù)訓(xùn)練任務(wù)都會(huì)導(dǎo)致性能下降,表明組合動(dòng)作對(duì)齊和音頻-文本對(duì)齊對(duì)模型性能至關(guān)重要。在數(shù)據(jù)量減少的情況下,該模型仍然表現(xiàn)出優(yōu)異的泛化能力。
此外,模型還展現(xiàn)了根據(jù)動(dòng)作預(yù)測(cè)情緒的能力,在該任務(wù)上也取得了顯著的成果,優(yōu)于基線模型。
4. 模型應(yīng)用與未來(lái)展望
該模型可以應(yīng)用于游戲、VR等領(lǐng)域,實(shí)現(xiàn)更逼真、更自然的人機(jī)交互。其可編輯動(dòng)作生成能力也為動(dòng)作捕捉和動(dòng)畫(huà)制作提供了新的可能性。這項(xiàng)研究為李飛飛的“空間智能”目標(biāo)做出了重要貢獻(xiàn)。
總而言之,該研究提出了一種新穎的多模態(tài)語(yǔ)言模型,有效地統(tǒng)一了3D人體動(dòng)作的言語(yǔ)和非言語(yǔ)語(yǔ)言,并在動(dòng)作生成和理解方面取得了顯著進(jìn)展,為未來(lái)多模態(tài)交互研究提供了新的方向。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)