DiaMoE-TTS – 清華聯合巨人網絡開源的多方言TTS框架
DiaMoE-TTS:讓全球方言在數字世界中“開口說話”的創新語音合成框架
由清華大學與巨人網絡攜手打造的DiaMoE-TTS,是一項突破性的多方言語音合成(TTS)框架。它巧妙地融合了國際音標(IPA)這一通用語言符號系統,并引入了能夠感知方言特性的混合專家(Mixture-of-Experts,MoE)架構,輔以低資源高效微調(PEFT)策略。這一切旨在以極低的成本和門檻,實現豐富多樣的方言語音合成,讓那些在數字世界中鮮有聲音的小眾語言,也能清晰地表達。
DiaMoE-TTS的魅力不止于此。它不僅支持粵語、閩南話、吳語等多種漢語方言,更能觸及小語種,甚至京劇韻白等特殊語境,讓“沉默”的語言重新煥發生機。更令人稱道的是,即使在僅有數小時語料的極端低資源環境下,該框架也能通過PEFT策略和數據增強技術,快速適應新方言,生成自然流暢的語音。其全鏈路開源的特性,為研究者和開發者提供了極大的便利,方便復現、擴展和創新,有力地推動了方言保護和文化傳承的進程。
DiaMoE-TTS的核心技術亮點在于其精巧的設計。
IPA統一輸入:框架采用國際音標(IPA)作為標準輸入,將不同方言的語音信號統一映射到同一音素空間。這一策略有效地消弭了方言間的發音差異,為模型的穩定訓練和泛化能力的提升奠定了堅實基礎。
方言感知MoE架構:通過引入多個“專家”網絡,每個專家專注于學習特定方言的獨有發音特征,有效避免了單一模型在處理多種方言時出現的“風格平均化”問題。當輸入一段IPA時,系統能夠智能地選擇最適合的專家網絡進行合成,并通過方言分類輔助損失,進一步增強了專家網絡的區分能力。
低資源適配(PEFT):在text embedding層和注意力層中集成了Conditioning Adapter和LoRA技術,僅需微調少量參數,即可實現新方言的快速適配,而無需觸動龐大的主干網絡和MoE模塊。同時,結合音高和語速擾動等數據增強手段,顯著提升了模型在低資源條件下的合成表現。
多階段訓練策略:基于F5-TTS的成熟模型,框架首先利用IPA音素轉換數據進行預熱訓練,實現輸入形式的平滑過渡。接著,通過聯合訓練多個開源方言數據,激活MoE結構,學習共享特征并區分不同方言的發音模式。動態門控機制和方言分類輔助損失的引入,進一步優化了MoE的分流效果,精準捕捉每種方言的獨特韻味。對于語料稀缺的新方言,則運用PEFT策略結合數據增強,實現高效遷移,同時確保原有知識不被遺忘。
DiaMoE-TTS的開源項目地址如下,歡迎各界人士一同探索和貢獻:
GitHub倉庫:https://github.com/GiantAILab/DiaMoE-TTS
HuggingFace模型庫:https://huggingface.co/RICHARD12369/DiaMoE_TTS
arXiv技術論文:https://www.arxiv.org/pdf/2509.22727
DiaMoE-TTS的應用前景廣闊,必將在多個領域發揮重要作用:
教育領域:為方言及小語種教學提供生動形象的語音工具,助力學習者掌握地道的發音。
文化保護:成為方言與小語種傳承的有力助手,記錄并重現瀕危語言的風采,守護文化多樣性。
虛擬人與數字內容:為虛擬角色、數字助手賦予多樣的方言語音,豐富其表現力,提升用戶交互體驗。
數字文旅:為旅游景點打造多語種、多方言的語音導覽,增強游客的文化認同感和親切感。
跨境交流:打破語言隔閡,促進不同文化背景人群間的理解與溝通。