內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
AIGC動態(tài)歡迎閱讀
原標題:內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
關(guān)鍵字:語音,數(shù)據(jù),模型,音色,教程
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):5361字
內(nèi)容摘要:
編輯:xixi,李寶珠
RVC 創(chuàng)始人開源了一款音色克隆項目 GPT-SoVITS,僅需提供 5 秒語音樣本,便可收獲相似度達到 80%~95% 的克隆語音。「語音」是人類接觸 AI 的「早教技術(shù)」,同時也是最早一批走出實驗室,走進千家萬戶的 AI 技術(shù)。最初,人們針對智能語音的研究主要集中在語音識別上,即讓機器聽懂人類語言。
最早的基于電子計算機的語音識別系統(tǒng)是由 AT&T 貝爾實驗室開發(fā)的 Audrey,能夠識別 10 個英文數(shù)字。1988 年,李開復(fù)實現(xiàn)了第一個基于隱馬爾可夫模型的大詞匯量語音識別系統(tǒng) Sphinx。1997 年,世界上首個面向消費者的連續(xù)語音聽寫系統(tǒng) Dragon NaturallySpeaking 正式發(fā)布。2009 年,微軟在 Windows 7 操作系統(tǒng)中集成了語音功能。
2011 年,里程碑式產(chǎn)品 iPhone 4S 發(fā)布,Siri 的誕生將智能語音從識別帶入了「交互」的新階段。同年,谷歌宣布將在其內(nèi)部測試開始 Google 搜索,并在未來的日子里將在 Google.com 上推出語音搜索。
從聽到說的躍遷,也是人機交互繁榮發(fā)展的重要奠基石。如今,從智能
原文鏈接:內(nèi)含教程丨音色克隆模型 GPT-SoVITS,5 秒語音就能克隆出相似度 95% 的聲音
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:HyperAI
作者簡介:解構(gòu)技術(shù)先進性與普適性,解讀更前沿的 AIForScience 案例