TANGOFLUX – 英偉達聯(lián)合新加坡科技設計大學開源的文本到音頻生成模型
TANGOFLUX是什么
TANGOFLUX是一款高效的文本轉音頻生成模型,由新加坡科技設計大學(SUTD)與NVIDIA聯(lián)合開發(fā)。該模型擁有約5.15億個參數(shù),能夠在單個A40 GPU上,在僅需3.7秒的時間內生成時長最長可達30秒的44.1kHz音頻。TANGOFLUX采用了CLAP-Ranked Preference Optimization(CRPO)框架,通過迭代生成和優(yōu)化偏好數(shù)據(jù),提升了模型在音頻對齊方面的能力。其在多項客觀和主觀基準測試中表現(xiàn)卓越,并已在GitHub等平臺上開源代碼和模型,便于進一步研究。
TANGOFLUX的主要功能
- 高效音頻生成:TANGOFLUX能夠迅速生成高質量音頻內容,僅需3.7秒即可產生長達30秒的44.1kHz音頻。
- 文本到音頻轉換:該模型可以直接將文本描述轉換為相應的音頻輸出,實現(xiàn)文本與音頻的無縫連接。
- 偏好優(yōu)化:TANGOFLUX能夠根據(jù)用戶偏好和輸入文本的意圖優(yōu)化音頻輸出,提高匹配度。
- 非專有數(shù)據(jù)訓練:模型基于非專有數(shù)據(jù)集進行訓練,使其更加開放和可獲取。
TANGOFLUX的技術原理
- 變分自編碼器:通過VAE將音頻波形編碼為潛在表示,并從中重構原始音頻。
- 文本和時長嵌入:模型利用文本編碼和時長編碼來控制生成音頻的內容及時長,實現(xiàn)音頻生成的可控性。
- FluxTransformer架構:構建于FluxTransformer模塊之上,結合了Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT),以處理文本提示并生成音頻。
- 流匹配(Flow Matching, FM):采用流匹配框架,學習從簡單的先驗分布到復雜目標分布的映射,生成樣本。
- CLAP-Ranked Preference Optimization (CRPO):CRPO框架通過迭代生成偏好數(shù)據(jù)對,優(yōu)化音頻與文本的對齊。利用CLAP模型作為代理獎勵模型,基于文本和音頻的聯(lián)合嵌入評估音頻輸出的質量,構建偏好數(shù)據(jù)集以進行優(yōu)化。
- 直接偏好優(yōu)化:TANGOFLUX將直接偏好優(yōu)化(DPO)應用于流匹配,比較成功與失敗的音頻樣本,從而提升模型的音頻與文本描述的對齊度。
TANGOFLUX的項目地址
- 項目官網(wǎng):tangoflux.github.io
- GitHub倉庫:https://github.com/declare-lab/TangoFlux
- HuggingFace模型庫:https://huggingface.co/declare-lab/TangoFlux
- arXiv技術論文:https://export.arxiv.org/pdf/2412.21037
- 在線體驗Demo:https://huggingface.co/spaces/declare-lab/TangoFlux
TANGOFLUX的應用場景
- 多媒體內容創(chuàng)作:在電影、游戲、廣告及視頻制作中,TANGOFLUX可用于生成背景音樂、音效和配音,顯著提升制作效率并降低成本。
- 音頻制作與設計:音樂制作人和聲音設計師可利用該模型創(chuàng)作新的音樂作品或設計特定音效。
- 播客與有聲書:為播客或有聲書自動生成背景音樂和音效,增強聽眾的聽覺體驗。
- 教育與培訓:在教育領域,TANGOFLUX可用于創(chuàng)建模擬真實場景的音頻,輔助語言學習或專業(yè)技能訓練。
- 虛擬助手與機器人:為虛擬助手和機器人提供更加自然且豐富的語音反饋,提升用戶的互動體驗。
常見問題
- Q: TANGOFLUX是否適用于所有類型的文本?
A: 是的,TANGOFLUX能夠處理多種類的文本輸入并生成相應的音頻輸出。 - Q: 我可以在本地運行TANGOFLUX嗎?
A: 是的,您可以通過GitHub上的開源代碼在本地環(huán)境中運行TANGOFLUX。 - Q: TANGOFLUX支持哪些語言?
A: 目前,TANGOFLUX主要支持多種主要語言的文本生成,具體取決于訓練數(shù)據(jù)的覆蓋范圍。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...