解碼情感:新一代多模態(tài)模型超越指令,洞察隱含情緒
造出指令遵循能力卓越的多模態(tài)語言模型。
原標題:李飛飛團隊統(tǒng)一動作與語言,新的多模態(tài)模型不僅超懂指令,還能讀懂隱含情緒
文章來源:機器之心
內容字數(shù):7982字
探索多模態(tài)語言模型在動作生成中的應用
近期,斯坦福大學的研究團隊在多模態(tài)語言模型的領域取得了重要進展,尤其是在語音、文本和動作生成任務的統(tǒng)一方面。他們提出了一種新型模型,能夠同時接受音頻和文本輸入,生成對應的動作。這項研究對理解人類的多模態(tài)溝通至關重要,尤其是對李飛飛教授提出的“空間智能”目標的推動作用。
1. 多模態(tài)語言模型的構建
該團隊的模型通過將動作轉化為token實現(xiàn)多模態(tài)的結合,針對不同身體部位(如面部、上身、下身等)進行動作的token化。模型的訓練流程分為兩個階段:首先進行預訓練,通過身體組合動作對齊和音頻-文本對齊來整合不同模態(tài)的數(shù)據(jù),隨后在下游任務中微調模型以遵循具體指令。
2. 預訓練的重要性
實驗結果表明,該模型在多模態(tài)任務中表現(xiàn)優(yōu)越,尤其是在數(shù)據(jù)稀缺的情況下,預訓練策略的優(yōu)勢更加明顯。模型能夠在未見過的語音-動作數(shù)據(jù)上展現(xiàn)出良好的泛化能力,證明了預訓練對提升模型性能的關鍵作用。
3. 可編輯的動作生成
新模型的另一大亮點是其可編輯的動作生成能力。研究團隊展示了模型如何根據(jù)音頻和文本指令生成自然流暢的全身動作,這一技術在游戲和虛擬現(xiàn)實等應用中具有重要價值。同時,模型還展示了根據(jù)動作預測情緒的能力,進一步拓展了其應用場景。
4. 結論
該研究不僅為多模態(tài)語言模型的發(fā)展提供了新的視角,還為人類的動作理解與生成開辟了新的可能性。這一創(chuàng)新模型的成功應用,標志著在實現(xiàn)人機交互中的重要一步,未來有望在更廣泛的領域中發(fā)揮作用。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產業(yè)服務平臺