AI說書媲美真人!豆包語音大模型升級(jí)長(zhǎng)上下文理解
打破傳統(tǒng)語音合成鏈路,端到端生成
原標(biāo)題:AI說書媲美真人!豆包語音大模型升級(jí)長(zhǎng)上下文理解
文章來源:量子位
內(nèi)容字?jǐn)?shù):2445字
豆包語音模型:AI 合成有聲書,媲美真人主播
本文總結(jié)了量子位公眾號(hào)文章中關(guān)于豆包語音模型在AI有聲書合成方面的技術(shù)突破。該模型在原有Seed-TTS框架的基礎(chǔ)上,通過一系列改進(jìn),實(shí)現(xiàn)了高表現(xiàn)力、高自然度、高語義理解的小說演播效果,其合成語音效果已達(dá)到一流真人主播的90%以上。
1. 挑戰(zhàn)與突破:超越傳統(tǒng)TTS
市面上許多語音模型已能生成自然的聲音,但在音質(zhì)、韻律、情感以及多角色演繹方面仍有提升空間。尤其在小說演播領(lǐng)域,要達(dá)到一流主播的細(xì)膩程度,需要精準(zhǔn)表達(dá)角感、區(qū)分旁白和角色、以及確保不同角色的區(qū)分度。傳統(tǒng)TTS需要人工標(biāo)注對(duì)話、旁白、情感和角色等信息,而豆包語音模型則實(shí)現(xiàn)了端到端合成,無需額外標(biāo)簽,顯著提高了效率。
2. Seed-TTS框架的改進(jìn)與創(chuàng)新
豆包語音模型基于Seed-TTS框架進(jìn)行改進(jìn)。Seed-TTS本身包含四個(gè)主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包團(tuán)隊(duì)的改進(jìn)主要體現(xiàn)在以下幾個(gè)方面:
- 數(shù)據(jù)處理:對(duì)小說音頻進(jìn)行章節(jié)級(jí)別處理,保證了長(zhǎng)文本語音的一致性和連貫性。
- 特征融合:融合TTS前端提取的音素、音調(diào)、韻律信息和原始文本,提升發(fā)音和韻律的同時(shí),保留小說語義。
- 結(jié)構(gòu)調(diào)整:將Speech Tokenizer改為Speaker Embedding,擺脫了參考音頻對(duì)語音風(fēng)格的限制,使同一個(gè)發(fā)音人能夠在不同角色上進(jìn)行更貼合人設(shè)的演繹。
- 上下文理解:在目標(biāo)合成文本之外,額外加入上下文信息,使模型能夠感知更大范圍的語義信息,從而更精準(zhǔn)地表達(dá)旁白和角色。
這些改進(jìn)最終使模型在CMOS評(píng)分中達(dá)到了與真人主播90%以上的相似度。
3. 技術(shù)落地與未來展望
豆包語音大模型團(tuán)隊(duì)以王明軍、李滿超兩位演播圈大咖的聲音為基礎(chǔ),利用該技術(shù)合成了上千部有聲書,已上線番茄小說平臺(tái),涵蓋歷史、懸疑、靈異、都市、腦洞、科幻等多種題材。未來,該團(tuán)隊(duì)將繼續(xù)探索前沿科技與業(yè)務(wù)場(chǎng)景的結(jié)合,致力于提供更極致的聽書體驗(yàn)。
4. 總結(jié)
豆包語音模型通過對(duì)Seed-TTS框架的改進(jìn)和創(chuàng)新,在AI有聲書合成領(lǐng)域取得了顯著進(jìn)展,其技術(shù)突破不僅提高了合成語音的質(zhì)量和自然度,也簡(jiǎn)化了生產(chǎn)流程。這項(xiàng)技術(shù)不僅為聽書用戶帶來了更好的體驗(yàn),也為有聲書產(chǎn)業(yè)的發(fā)展帶來了新的可能性。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破


粵公網(wǎng)安備 44011502001135號(hào)