解碼情感：新一代多模態(tài)模型超越指令，洞察隱含情緒

造出指令遵循能力卓越的多模態(tài)語言模型。

原標題：李飛飛團隊統(tǒng)一動作與語言，新的多模態(tài)模型不僅超懂指令，還能讀懂隱含情緒
文章來源：機器之心
內容字數(shù)：7982字

探索多模態(tài)語言模型在動作生成中的應用

近期，斯坦福大學的研究團隊在多模態(tài)語言模型的領域取得了重要進展，尤其是在語音、文本和動作生成任務的統(tǒng)一方面。他們提出了一種新型模型，能夠同時接受音頻和文本輸入，生成對應的動作。這項研究對理解人類的多模態(tài)溝通至關重要，尤其是對李飛飛教授提出的“空間智能”目標的推動作用。

1. 多模態(tài)語言模型的構建

該團隊的模型通過將動作轉化為token實現(xiàn)多模態(tài)的結合，針對不同身體部位（如面部、上身、下身等）進行動作的token化。模型的訓練流程分為兩個階段：首先進行預訓練，通過身體組合動作對齊和音頻-文本對齊來整合不同模態(tài)的數(shù)據(jù)，隨后在下游任務中微調模型以遵循具體指令。

2. 預訓練的重要性

實驗結果表明，該模型在多模態(tài)任務中表現(xiàn)優(yōu)越，尤其是在數(shù)據(jù)稀缺的情況下，預訓練策略的優(yōu)勢更加明顯。模型能夠在未見過的語音-動作數(shù)據(jù)上展現(xiàn)出良好的泛化能力，證明了預訓練對提升模型性能的關鍵作用。

3. 可編輯的動作生成

新模型的另一大亮點是其可編輯的動作生成能力。研究團隊展示了模型如何根據(jù)音頻和文本指令生成自然流暢的全身動作，這一技術在游戲和虛擬現(xiàn)實等應用中具有重要價值。同時，模型還展示了根據(jù)動作預測情緒的能力，進一步拓展了其應用場景。

4. 結論

該研究不僅為多模態(tài)語言模型的發(fā)展提供了新的視角，還為人類的動作理解與生成開辟了新的可能性。這一創(chuàng)新模型的成功應用，標志著在實現(xiàn)人機交互中的重要一步，未來有望在更廣泛的領域中發(fā)揮作用。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產業(yè)服務平臺

閱讀原文

# AIGC動態(tài)# 人工智能 # 多模態(tài)模型 # 指令理解 # 統(tǒng)一動作 # 隱含情緒

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

解碼情感：新一代多模態(tài)模型超越指令，洞察隱含情緒

造出指令遵循能力卓越的多模態(tài)語言模型。

探索多模態(tài)語言模型在動作生成中的應用

1. 多模態(tài)語言模型的構建

2. 預訓練的重要性

3. 可編輯的動作生成

4. 結論

聯(lián)系作者

下周六上海見！AI Compiler技術沙龍匯集智源、字節(jié)、凌川科技等大咖

揭開AI對話的面紗：生數(shù)、智譜、宇樹與智源的思想碰撞與共鳴

相關文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點