標簽:語音合成

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

DiaMoE-TTS

DiaMoE-TTS 是清華大學和巨人網絡聯合推出的多方言語音合成(TTS)框架。框架基于國際音標(IPA)統一輸入體系,結合方言感知的 Mixture-of-Experts(MoE)架...
閱讀原文

NeuTTS Air

NeuTTS Air 是 Neuphonic 開發的超擬真、可離線運行的 TTS(文本到語音)模型。具備高擬真語音合成能力,聲音自然流暢,幾乎能以假亂真。支持本地運行,提供 ...
閱讀原文

Qwen3-TTS-Flash

Qwen3-TTS-Flash 是阿里通義推出的支持多音色、多語言和多方言的旗艦語音合成模型。模型具備卓越的中英語音穩定性,出色的多語言性能,及高表現力的擬人音色。
閱讀原文

IndexTTS2

IndexTTS2是B站語音團隊開發的新型文本轉語音(TTS)模型,已經正式開源。模型在情感表達和時長控制方面實現了重大突破,是首個支持精確時長控制的自回歸TTS...
閱讀原文

UnifiedTTS

UnifiedTTS 是提供一站式文本轉語音(TTS)服務的平臺。通過統一的 API 接口,整合了多種主流的 TTS 服務,包括 Microsoft Azure、MiniMax、阿里云和 ElevenL...
閱讀原文

AudioGen-Omni

AudioGen-Omni是快手推出的多模態音頻生成框架,框架能基于視頻、文本等輸入生成高質量的音頻、語音和歌曲。框架通過統一的歌詞-文本編碼器和相位對齊各向異...
閱讀原文

HuHu.ai

HuHu.ai 是專為時尚電商設計的 AI 平臺,通過智能技術幫助品牌快速生成高質量的模特試穿圖,優化內容創作流程,提升電商轉化率。能將平鋪圖、衣架圖或幽靈模...
閱讀原文

Higgs Audio V2

Higgs Audio V2 是李沐及其團隊 Boson AI 開發的開源語音大模型。基于超過1000萬小時的音頻數據訓練而成,具備多語言對話生成、自動韻律調整、語音克隆和歌聲...
閱讀原文

Kyutai TTS

Kyutai TTS 是法國人工智能研究機構 Kyutai Labs 推出的流式文本轉語音(TTS)技術。是創新的語音合成系統,能實時將文本轉換為自然流暢的語音,無需等待完整...
閱讀原文

Qwen-TTS

Qwen-TTS是阿里通義推出的語音合成模型,具備自然、穩定、快速的特點。模型能根據文本和音色參數輸出高質量音頻,支持中英文及方言合成,如北京話、上海話、...
閱讀原文

智聲云配

智聲云配(DubbingX) 是 AI 智能配音工具,提供語音合成(TTS)、音色遷移、歌聲轉換等多種功能。工具支持中文、英文、日文、粵語等多語言,擁有近2500種情...
閱讀原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到語音(TTS)模型。模型基于回歸 Transformer 架構,實現零樣本語音克隆,僅需幾秒參考語音能生成高度相似的目標語音...
閱讀原文

Stable Audio Open Small

Stable Audio Open Small 是 Stability AI 與 Arm 合作推出的輕量級文本到音頻生成模型。基于 Stable Audio Open 模型,參數量從11億減少到3.41億,生成速度...
閱讀原文

Audio-SDS

Audio-SDS是NVIDIA AI研究團隊推出的創新技術,將Score Distillation Sampling(SDS)技術擴展至文本條件音頻擴散模型,為音頻處理領域帶來了重大突破。無需...
閱讀原文

MegaTTS 3

MegaTTS 3是字節跳動與浙江大學合作推出的零樣本文本到語音合成系統,采用輕量級擴散模型,參數量僅0.45B,能高效生成高質量語音。系統將語音分解為內容、音...
閱讀原文
1235