国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節(jié)整新活！照片+音頻讓蒙娜麗莎秒變播客主理人

既能說，又能聽！字節(jié)INFP交互式人像生成技術，向Visual Chat Agent邁進。

字節(jié)整新活！照片+音頻讓蒙娜麗莎秒變播客主理人

原標題：字節(jié)整新活！照片+音頻讓蒙娜麗莎秒變播客主理人
文章來源：機器之心
內容字數：3387字

字節(jié)跳動提出交互式人像生成技術INFP：實現AI數字人自然流暢的聽說交互

本文介紹了字節(jié)跳動智能創(chuàng)作數字人團隊提出的交互式人像生成技術INFP，該技術能夠實時驅動單張肖像照片生成對話視頻，實現AI數字人在多輪對話中自然流暢的“聽說”行為切換，以及逼真的表情、眼神、口型和姿態(tài)變化。

1. INFP技術背景

在大語言模型和AIGC的熱潮下，構建“視覺對話智能體”成為研究熱點。可實時交互的人像生成技術是實現這一目標的關鍵環(huán)節(jié)，它能確保智能體在與用戶多輪對話過程中提供自然、逼真的視覺反饋，提升用戶交互體驗。然而，現有技術大多面向單一方向交互（如說話或傾聽），無法直接應用于智能體構建。INFP旨在解決這一問題。

2. INFP技術方案

INFP包含兩個階段：

Motion-Based Head Imitation：該階段模型從大量對話視頻中學習提取對話中的交互和行為（包括非語言和語言動作），并將其映射到隱空間。為了提高解耦性，文章提出對輸入圖像進行面部結構離散化和面部像素遮罩處理。
Audio-Guided Motion Generation：該階段模型將對話音頻（智能體和對話伙伴）映射到隱空間，生成相應的潛碼。它包含一個交互引導模型（從可學習記憶庫檢索動作特征）和一個條件擴散模型（利用交互式特征生成潛碼）。

INFP的優(yōu)勢在于，它僅需輸入對話音頻，即可實時生成自然的人物行為和反饋，實現說話-傾聽狀態(tài)的無縫切換。

3. INFP實驗結果與效果

文章通過與其他SOTA方案的對比實驗，證明了INFP的有效性，并展示了其在“單一交互”場景中的優(yōu)異性能。實驗結果涵蓋動作多樣性、非真人效果、即時交互等多個方面。

4. 安全說明

該工作僅用于學術研究，團隊會嚴格限制模型的對外開放和使用權限，防止未經授權的惡意使用。

5. 團隊介紹

字節(jié)跳動智能創(chuàng)作數字人團隊隸屬于字節(jié)跳動AI & 多媒體技術團隊，致力于建設行業(yè)領先的數字人生成和驅動技術，豐富智能創(chuàng)作內容生態(tài)。目前，該團隊已通過火山引擎向企業(yè)開放技術能力和服務。

INFP技術的出現為構建更自然、更逼真的AI視覺對話智能體提供了新的可能性，推動了人機交互技術的進步。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產業(yè)服務平臺

閱讀原文

# AIGC動態(tài)# AI圖像生成 # AI播客制作 # AI數字人驅動 # AI虛擬主播 # AI音頻合成

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

字節(jié)整新活！照片+音頻讓蒙娜麗莎秒變播客主理人

既能說，又能聽！字節(jié)INFP交互式人像生成技術，向Visual Chat Agent邁進。

字節(jié)跳動提出交互式人像生成技術INFP：實現AI數字人自然流暢的聽說交互

1. INFP技術背景

2. INFP技術方案

3. INFP實驗結果與效果

4. 安全說明

5. 團隊介紹

聯(lián)系作者

o3智商高達157？每13333人中才有一個這么高，網友：編碼分數無意義

拜登連中國生產的舊芯片都要禁了！美商務部長突然“變臉”：這禁令純是"白忙活"

相關文章

暫無評論

ChatGPT

玩虛擬模特？