既能說,又能聽!字節INFP交互式人像生成技術,向Visual Chat Agent邁進。
原標題:字節整新活!照片+音頻讓蒙娜麗莎秒變播客主理人
文章來源:機器之心
內容字數:3387字
字節跳動提出交互式人像生成技術INFP:實現AI數字人自然流暢的聽說交互
本文介紹了字節跳動智能創作數字人團隊提出的交互式人像生成技術INFP,該技術能夠實時驅動單張肖像照片生成對話視頻,實現AI數字人在多輪對話中自然流暢的“聽說”行為切換,以及逼真的表情、眼神、口型和姿態變化。
1. INFP技術背景
在大語言模型和AIGC的熱潮下,構建“視覺對話智能體”成為研究熱點。可實時交互的人像生成技術是實現這一目標的關鍵環節,它能確保智能體在與用戶多輪對話過程中提供自然、逼真的視覺反饋,提升用戶交互體驗。然而,現有技術大多面向單一方向交互(如說話或傾聽),無法直接應用于智能體構建。INFP旨在解決這一問題。
2. INFP技術方案
INFP包含兩個階段:
- Motion-Based Head Imitation:該階段模型從大量對話視頻中學習提取對話中的交互和行為(包括非語言和語言動作),并將其映射到隱空間。為了提高解耦性,文章提出對輸入圖像進行面部結構離散化和面部像素遮罩處理。
- Audio-Guided Motion Generation:該階段模型將對話音頻(智能體和對話伙伴)映射到隱空間,生成相應的潛碼。它包含一個交互引導模型(從可學習記憶庫檢索動作特征)和一個條件擴散模型(利用交互式特征生成潛碼)。
INFP的優勢在于,它僅需輸入對話音頻,即可實時生成自然的人物行為和反饋,實現說話-傾聽狀態的無縫切換。
3. INFP實驗結果與效果
文章通過與其他SOTA方案的對比實驗,證明了INFP的有效性,并展示了其在“單一交互”場景中的優異性能。實驗結果涵蓋動作多樣性、非真人效果、即時交互等多個方面。
4. 安全說明
該工作僅用于學術研究,團隊會嚴格限制模型的對外開放和使用權限,防止未經授權的惡意使用。
5. 團隊介紹
字節跳動智能創作數字人團隊隸屬于字節跳動AI & 多媒體技術團隊,致力于建設行業領先的數字人生成和驅動技術,豐富智能創作內容生態。目前,該團隊已通過火山引擎向企業開放技術能力和服務。
INFP技術的出現為構建更自然、更逼真的AI視覺對話智能體提供了新的可能性,推動了人機交互技術的進步。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...