字節(jié)整新活!照片+音頻讓蒙娜麗莎秒變播客主理人
既能說,又能聽!字節(jié)INFP交互式人像生成技術(shù),向Visual Chat Agent邁進(jìn)。

原標(biāo)題:字節(jié)整新活!照片+音頻讓蒙娜麗莎秒變播客主理人
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3387字
字節(jié)跳動(dòng)提出交互式人像生成技術(shù)INFP:實(shí)現(xiàn)AI數(shù)字人自然流暢的聽說交互
本文介紹了字節(jié)跳動(dòng)智能創(chuàng)作數(shù)字人團(tuán)隊(duì)提出的交互式人像生成技術(shù)INFP,該技術(shù)能夠?qū)崟r(shí)驅(qū)動(dòng)單張肖像照片生成對(duì)話視頻,實(shí)現(xiàn)AI數(shù)字人在多輪對(duì)話中自然流暢的“聽說”行為切換,以及逼真的表情、眼神、口型和姿態(tài)變化。
1. INFP技術(shù)背景
在大語言模型和AIGC的熱潮下,構(gòu)建“視覺對(duì)話智能體”成為研究熱點(diǎn)。可實(shí)時(shí)交互的人像生成技術(shù)是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵環(huán)節(jié),它能確保智能體在與用戶多輪對(duì)話過程中提供自然、逼真的視覺反饋,提升用戶交互體驗(yàn)。然而,現(xiàn)有技術(shù)大多面向單一方向交互(如說話或傾聽),無法直接應(yīng)用于智能體構(gòu)建。INFP旨在解決這一問題。
2. INFP技術(shù)方案
INFP包含兩個(gè)階段:
- Motion-Based Head Imitation:該階段模型從大量對(duì)話視頻中學(xué)習(xí)提取對(duì)話中的交互和行為(包括非語言和語言動(dòng)作),并將其映射到隱空間。為了提高解耦性,文章提出對(duì)輸入圖像進(jìn)行面部結(jié)構(gòu)離散化和面部像素遮罩處理。
- Audio-Guided Motion Generation:該階段模型將對(duì)話音頻(智能體和對(duì)話伙伴)映射到隱空間,生成相應(yīng)的潛碼。它包含一個(gè)交互引導(dǎo)模型(從可學(xué)習(xí)記憶庫(kù)檢索動(dòng)作特征)和一個(gè)條件擴(kuò)散模型(利用交互式特征生成潛碼)。
INFP的優(yōu)勢(shì)在于,它僅需輸入對(duì)話音頻,即可實(shí)時(shí)生成自然的人物行為和反饋,實(shí)現(xiàn)說話-傾聽狀態(tài)的無縫切換。
3. INFP實(shí)驗(yàn)結(jié)果與效果
文章通過與其他SOTA方案的對(duì)比實(shí)驗(yàn),證明了INFP的有效性,并展示了其在“單一交互”場(chǎng)景中的優(yōu)異性能。實(shí)驗(yàn)結(jié)果涵蓋動(dòng)作多樣性、非真人效果、即時(shí)交互等多個(gè)方面。
4. 安全說明
該工作僅用于學(xué)術(shù)研究,團(tuán)隊(duì)會(huì)嚴(yán)格限制模型的對(duì)外開放和使用權(quán)限,防止未經(jīng)授權(quán)的惡意使用。
5. 團(tuán)隊(duì)介紹
字節(jié)跳動(dòng)智能創(chuàng)作數(shù)字人團(tuán)隊(duì)隸屬于字節(jié)跳動(dòng)AI & 多媒體技術(shù)團(tuán)隊(duì),致力于建設(shè)行業(yè)領(lǐng)先的數(shù)字人生成和驅(qū)動(dòng)技術(shù),豐富智能創(chuàng)作內(nèi)容生態(tài)。目前,該團(tuán)隊(duì)已通過火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。
INFP技術(shù)的出現(xiàn)為構(gòu)建更自然、更逼真的AI視覺對(duì)話智能體提供了新的可能性,推動(dòng)了人機(jī)交互技術(shù)的進(jìn)步。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)