VoxCPM

VoxCPM – 面壁智能聯合清華推出的語音生成模型

核心觀點： VoxCPM 是一個由面壁智能與清華大學深圳國際研究生院聯合研發的 0.5B 參數語音生成模型，憑借其創新的擴散自回歸架構，在語音合成的自然度、音色還原度和韻律表現力上達到了業界領先水平。該模型支持零樣本語音克隆、高效流式合成、中英雙語支持以及對公式符號等復雜文本的處理，廣泛應用于語音助手、有聲讀物、教育娛樂等多個領域。

VoxCPM：顛覆性語音生成模型

VoxCPM，一款由面壁智能攜手清華大學深圳國際研究生院傾力打造的 0.5B 參數語音生成模型，正以其卓越的性能引領行業新標桿。它在語音合成的自然度、音色精確復刻以及韻律表現力方面，均達到了令人矚目的業界頂尖水平。

VoxCPM 的創新之處

VoxCPM 獨樹一幟地采用了端到端的擴散自回歸架構。這一性的設計，使其能夠直接從文本生成連貫的語音表達，徹底擺脫了傳統離散分詞的束縛。通過精妙的分層語言建模和有限狀態量化約束，VoxCPM 實現了語義與聲學的巧妙解耦，極大地提升了語音的表達張力和生成過程的穩定性。其強大的零樣本語音克隆能力，只需一小段參考音頻，便能精準捕捉并復現說話者的音色、口音、情感語調等細微之處，生成高度逼真的仿聲語音。更值得一提的是，VoxCPM 的推理效率驚人，在 NVIDIA RTX 4090 GPU 上，實時因子（RTF）低至 0.17，完全滿足實時應用的需求。此外，VoxCPM 還支持中英雙語的聲音復刻，并能合成公式、符號音頻，實現自定義的讀音糾正，應用場景更加廣泛。

VoxCPM 的核心功能亮點

深度上下文感知語音生成：VoxCPM 深入理解文本的精髓，能夠依據文本的語義巧妙地推斷并生成恰當的韻律，輸出極具表現力且流暢自然的語音。它能夠自主調整說話風格，并依托于龐大的 180 萬小時雙語語料庫訓練，創造出高度契合的個性化聲音表達。
精準零樣本語音克隆：僅需一小段參考音頻，VoxCPM 即可實現令人驚嘆的零樣本語音克隆。它能夠完美還原說話者的音色，并捕捉口音、情感語調、節奏和停頓等細微特征，打造出高度忠實且自然的仿聲聲音。
極速合成體驗：VoxCPM 支持流式合成，在消費級 NVIDIA RTX 4090 GPU 上，實時因子（RTF）低至 0.17，能夠輕松滿足各種實時應用場景的需求。
多語言駕馭能力：VoxCPM 主要針對英語和中文進行深度訓練，能夠生成高質量的中英雙語語音，適用于多元化的語言環境和應用場景。
靈活多樣的文本輸入：VoxCPM 支持普通文本輸入和音素輸入等多種文本輸入方式，用戶可根據具體需求選擇最合適的輸入模式，實現更為精細的發音控制。
強大的復雜文本處理：VoxCPM 能夠游刃有余地處理公式、符號等特殊文本內容，并生成相應的語音輸出。它還支持自定義讀音糾正，用戶可以通過音素標記替換來實現特定的發音需求。

VoxCPM 的技術驅動力

端到端擴散自回歸架構：VoxCPM 采用了端到端的擴散自回歸（Diffusion Autoregressive）架構，直接從文本生成連續的語音表示，克服了傳統離散分詞的局限，能夠更自然地處理語音的連續性。
分層語言建模與 FSQ 約束：通過分層語言建模（Hierarchical Language Modeling）和有限狀態量化（FSQ）約束，VoxCPM 實現了語義-聲學（Semantic-Acoustic Decoupling）的隱式解耦，顯著提升了語音的表達力和生成穩定性。
局部音頻編碼模塊（LocEnc Module）：該模塊負責對輸入的文本進行編碼，提取文本的語義信息，并將其轉化為適合語音生成的中間表示。
文本-語義語言模型（Text-Semantic LM， TSLM）：TSLM 專注于對文本的語義進行建模，生成與文本內容相關的語義表示，為后續的語音生成奠定堅實的語義基礎。
殘差聲學語言模型（Residual Acoustic LM， RALM）：在 TSLM 的基礎上，RALM 進一步細化聲學特征，注入聲學細節，使生成的語音更加自然逼真。
局部擴散生成模塊（LocDiT Module）：LocDiT 模塊通過擴散過程生成連續的語音特征，融合語義和聲學信息，最終輸出高質量的語音波形。
因果式 VAE 編解碼器：該編解碼器用于將原始音頻波形壓縮至低幀率的隱空間，并將生成的語音表征重構回波形信號，確保生成的語音質量優良且穩定。