微軟NaturalSpeech語(yǔ)音合成推出第三代，網(wǎng)友驚呼：超自然！實(shí)至名歸

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：微軟NaturalSpeech語(yǔ)音合成推出第三代，網(wǎng)友驚呼：超自然！實(shí)至名歸
關(guān)鍵字：語(yǔ)音,模型,解讀,屬性,分解
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6114字

內(nèi)容摘要：

機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部SOTA 語(yǔ)音合成效果。
文本到語(yǔ)音合成（Text to Speech，TTS）作為生成式人工智能（Generative AI 或 AIGC）的重要課題，在近年來(lái)取得了飛速發(fā)展。在大模型（LLM）時(shí)代下，語(yǔ)音合成技術(shù)能夠擴(kuò)展大模型的語(yǔ)音交互能力，更是受到了廣泛的關(guān)注。多年來(lái)，微軟持續(xù)關(guān)注語(yǔ)音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā)，為了合成高質(zhì)量自然的人類(lèi)語(yǔ)音，NaturalSpeech 研究項(xiàng)目（https://aka.ms/speechresearch）應(yīng)運(yùn)而生。
為了實(shí)現(xiàn)這個(gè)宏偉遠(yuǎn)景，NaturalSpeech 項(xiàng)目將目標(biāo)拆分成幾個(gè)階段：
1）第一階段，在單個(gè)說(shuō)話(huà)人上取得媲美人類(lèi)的語(yǔ)音質(zhì)量。為此，研究團(tuán)隊(duì)在 2022 年推出了 NaturalSpeech 1，在 LJSpeech 語(yǔ)音合成數(shù)據(jù)集上達(dá)到了人類(lèi)錄音水平的音質(zhì)。
2）第二階段，高效地實(shí)現(xiàn)像人類(lèi)一樣多樣化的語(yǔ)音合成，包含不同的說(shuō)話(huà)人、韻律、情感、風(fēng)格等。為此，研究團(tuán)隊(duì)在 2023 年推出了 NaturalSpeech 2，利用擴(kuò)散模型（Diffusion Model）實(shí)現(xiàn)了零樣本（Zero-Shot）的語(yǔ)音合

原文鏈接：微軟NaturalSpeech語(yǔ)音合成推出第三代，網(wǎng)友驚呼：超自然！實(shí)至名歸