TANGOFLUX – 英偉達(dá)聯(lián)合新加坡科技設(shè)計(jì)大學(xué)開(kāi)源的文本到音頻生成模型
TANGOFLUX是什么
TANGOFLUX是一款高效的文本轉(zhuǎn)音頻生成模型,由新加坡科技設(shè)計(jì)大學(xué)(SUTD)與NVIDIA聯(lián)合開(kāi)發(fā)。該模型擁有約5.15億個(gè)參數(shù),能夠在單個(gè)A40 GPU上,在僅需3.7秒的時(shí)間內(nèi)生成時(shí)長(zhǎng)最長(zhǎng)可達(dá)30秒的44.1kHz音頻。TANGOFLUX采用了CLAP-Ranked Preference Optimization(CRPO)框架,通過(guò)迭代生成和優(yōu)化偏好數(shù)據(jù),提升了模型在音頻對(duì)齊方面的能力。其在多項(xiàng)客觀和主觀基準(zhǔn)測(cè)試中表現(xiàn)卓越,并已在GitHub等平臺(tái)上開(kāi)源代碼和模型,便于進(jìn)一步研究。
TANGOFLUX的主要功能
- 高效音頻生成:TANGOFLUX能夠迅速生成高質(zhì)量音頻內(nèi)容,僅需3.7秒即可產(chǎn)生長(zhǎng)達(dá)30秒的44.1kHz音頻。
- 文本到音頻轉(zhuǎn)換:該模型可以直接將文本描述轉(zhuǎn)換為相應(yīng)的音頻輸出,實(shí)現(xiàn)文本與音頻的無(wú)縫連接。
- 偏好優(yōu)化:TANGOFLUX能夠根據(jù)用戶(hù)偏好和輸入文本的意圖優(yōu)化音頻輸出,提高匹配度。
- 非專(zhuān)有數(shù)據(jù)訓(xùn)練:模型基于非專(zhuān)有數(shù)據(jù)集進(jìn)行訓(xùn)練,使其更加開(kāi)放和可獲取。
TANGOFLUX的技術(shù)原理
- 變分自編碼器:通過(guò)VAE將音頻波形編碼為潛在表示,并從中重構(gòu)原始音頻。
- 文本和時(shí)長(zhǎng)嵌入:模型利用文本編碼和時(shí)長(zhǎng)編碼來(lái)控制生成音頻的內(nèi)容及時(shí)長(zhǎng),實(shí)現(xiàn)音頻生成的可控性。
- FluxTransformer架構(gòu):構(gòu)建于FluxTransformer模塊之上,結(jié)合了Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT),以處理文本提示并生成音頻。
- 流匹配(Flow Matching, FM):采用流匹配框架,學(xué)習(xí)從簡(jiǎn)單的先驗(yàn)分布到復(fù)雜目標(biāo)分布的映射,生成樣本。
- CLAP-Ranked Preference Optimization (CRPO):CRPO框架通過(guò)迭代生成偏好數(shù)據(jù)對(duì),優(yōu)化音頻與文本的對(duì)齊。利用CLAP模型作為代理獎(jiǎng)勵(lì)模型,基于文本和音頻的聯(lián)合嵌入評(píng)估音頻輸出的質(zhì)量,構(gòu)建偏好數(shù)據(jù)集以進(jìn)行優(yōu)化。
- 直接偏好優(yōu)化:TANGOFLUX將直接偏好優(yōu)化(DPO)應(yīng)用于流匹配,比較成功與失敗的音頻樣本,從而提升模型的音頻與文本描述的對(duì)齊度。
TANGOFLUX的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):tangoflux.github.io
- GitHub倉(cāng)庫(kù):https://github.com/declare-lab/TangoFlux
- HuggingFace模型庫(kù):https://huggingface.co/declare-lab/TangoFlux
- arXiv技術(shù)論文:https://export.arxiv.org/pdf/2412.21037
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/declare-lab/TangoFlux
TANGOFLUX的應(yīng)用場(chǎng)景
- 多媒體內(nèi)容創(chuàng)作:在電影、游戲、廣告及視頻制作中,TANGOFLUX可用于生成背景音樂(lè)、音效和配音,顯著提升制作效率并降低成本。
- 音頻制作與設(shè)計(jì):音樂(lè)制作人和聲音設(shè)計(jì)師可利用該模型創(chuàng)作新的音樂(lè)作品或設(shè)計(jì)特定音效。
- 播客與有聲書(shū):為播客或有聲書(shū)自動(dòng)生成背景音樂(lè)和音效,增強(qiáng)聽(tīng)眾的聽(tīng)覺(jué)體驗(yàn)。
- 教育與培訓(xùn):在教育領(lǐng)域,TANGOFLUX可用于創(chuàng)建模擬真實(shí)場(chǎng)景的音頻,輔助語(yǔ)言學(xué)習(xí)或?qū)I(yè)技能訓(xùn)練。
- 虛擬助手與機(jī)器人:為虛擬助手和機(jī)器人提供更加自然且豐富的語(yǔ)音反饋,提升用戶(hù)的互動(dòng)體驗(yàn)。
常見(jiàn)問(wèn)題
- Q: TANGOFLUX是否適用于所有類(lèi)型的文本?
A: 是的,TANGOFLUX能夠處理多種類(lèi)的文本輸入并生成相應(yīng)的音頻輸出。 - Q: 我可以在本地運(yùn)行TANGOFLUX嗎?
A: 是的,您可以通過(guò)GitHub上的開(kāi)源代碼在本地環(huán)境中運(yùn)行TANGOFLUX。 - Q: TANGOFLUX支持哪些語(yǔ)言?
A: 目前,TANGOFLUX主要支持多種主要語(yǔ)言的文本生成,具體取決于訓(xùn)練數(shù)據(jù)的覆蓋范圍。
# AI工具# AI項(xiàng)目和框架# 云端數(shù)據(jù)存儲(chǔ)# 實(shí)時(shí)監(jiān)控系統(tǒng)# 智能數(shù)據(jù)分析# 用戶(hù)行為預(yù)測(cè)# 自動(dòng)化報(bào)告生成
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...