阿里音頻生成大模型一次發(fā)倆還開(kāi)源!50種語(yǔ)言快速理解+5種語(yǔ)言語(yǔ)音生成,帶情感的那種
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:阿里音頻生成大模型一次發(fā)倆還開(kāi)源!50種語(yǔ)言快速理解+5種語(yǔ)言語(yǔ)音生成,帶情感的那種
關(guān)鍵字:語(yǔ)音,情感,模型,音頻,
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
FunAudioLLM團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAIOpenAI遲遲不上線GPT-4o語(yǔ)音助手,其它音頻生成大模型成果倒是一波接著一波發(fā)布,關(guān)鍵還是開(kāi)源的。
剛剛,阿里通義實(shí)驗(yàn)室也出手了——
最新發(fā)布開(kāi)源語(yǔ)音大模型項(xiàng)目FunAudioLLM,而且一次包含兩個(gè)模型:SenseVoice和CosyVoice。
SenseVoice專(zhuān)注高精度多語(yǔ)言語(yǔ)音識(shí)別、情感辨識(shí)和音頻檢測(cè),支持超過(guò)50種語(yǔ)言識(shí)別,效果優(yōu)于Whisper模型,中文與粵語(yǔ)提升50%以上。
且情感識(shí)別能力強(qiáng),支持音樂(lè)、掌聲、笑聲、哭聲、咳嗽、噴嚏等多種常見(jiàn)人機(jī)交互檢測(cè),多方面測(cè)試拿下SOTA。
CosyVoice則專(zhuān)注自然語(yǔ)音生成,支持多語(yǔ)言、音色和情感控制,支持中英日粵韓5種語(yǔ)言的生成,效果顯著優(yōu)于傳統(tǒng)語(yǔ)音生成模型。
僅需要3~10s的原始音頻,CosyVoice即可生成模擬音色,甚至包括韻律、情感等細(xì)節(jié),包括跨語(yǔ)種語(yǔ)音生成。
而且CosyVoice支持以富文本或自然語(yǔ)言的形式,對(duì)生成語(yǔ)音的情感、韻律進(jìn)行細(xì)粒度的控制,生音頻在情感表現(xiàn)力上得到明顯提升。
話不多說(shuō),具體來(lái)看FunAudioLLM的用途以及效
原文鏈接:阿里音頻生成大模型一次發(fā)倆還開(kāi)源!50種語(yǔ)言快速理解+5種語(yǔ)言語(yǔ)音生成,帶情感的那種
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破