微軟NaturalSpeech語(yǔ)音合成推出第三代,網(wǎng)友驚呼:超自然!實(shí)至名歸
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟NaturalSpeech語(yǔ)音合成推出第三代,網(wǎng)友驚呼:超自然!實(shí)至名歸
關(guān)鍵字:語(yǔ)音,模型,解讀,屬性,分解
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6114字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部SOTA 語(yǔ)音合成效果。
文本到語(yǔ)音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來(lái)取得了飛速發(fā)展。在大模型(LLM)時(shí)代下,語(yǔ)音合成技術(shù)能夠擴(kuò)展大模型的語(yǔ)音交互能力,更是受到了廣泛的關(guān)注。多年來(lái),微軟持續(xù)關(guān)注語(yǔ)音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā),為了合成高質(zhì)量自然的人類(lèi)語(yǔ)音,NaturalSpeech 研究項(xiàng)目(https://aka.ms/speechresearch)應(yīng)運(yùn)而生。
為了實(shí)現(xiàn)這個(gè)宏偉遠(yuǎn)景,NaturalSpeech 項(xiàng)目將目標(biāo)拆分成幾個(gè)階段:
1)第一階段,在單個(gè)說(shuō)話(huà)人上取得媲美人類(lèi)的語(yǔ)音質(zhì)量。為此,研究團(tuán)隊(duì)在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語(yǔ)音合成數(shù)據(jù)集上達(dá)到了人類(lèi)錄音水平的音質(zhì)。
2)第二階段,高效地實(shí)現(xiàn)像人類(lèi)一樣多樣化的語(yǔ)音合成,包含不同的說(shuō)話(huà)人、韻律、情感、風(fēng)格等。為此,研究團(tuán)隊(duì)在 2023 年推出了 NaturalSpeech 2,利用擴(kuò)散模型(Diffusion Model)實(shí)現(xiàn)了零樣本(Zero-Shot)的語(yǔ)音合
原文鏈接:微軟NaturalSpeech語(yǔ)音合成推出第三代,網(wǎng)友驚呼:超自然!實(shí)至名歸
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)