TANGOFLUX

TANGOFLUX – 英偉達聯(lián)合新加坡科技設計大學開源的文本到音頻生成模型

TANGOFLUX是什么

TANGOFLUX是一款高效的文本轉音頻生成模型，由新加坡科技設計大學（SUTD）與NVIDIA聯(lián)合開發(fā)。該模型擁有約5.15億個參數(shù)，能夠在單個A40 GPU上，在僅需3.7秒的時間內生成時長最長可達30秒的44.1kHz音頻。TANGOFLUX采用了CLAP-Ranked Preference Optimization（CRPO）框架，通過迭代生成和優(yōu)化偏好數(shù)據(jù)，提升了模型在音頻對齊方面的能力。其在多項客觀和主觀基準測試中表現(xiàn)卓越，并已在GitHub等平臺上開源代碼和模型，便于進一步研究。

TANGOFLUX

TANGOFLUX的主要功能

高效音頻生成：TANGOFLUX能夠迅速生成高質量音頻內容，僅需3.7秒即可產生長達30秒的44.1kHz音頻。
文本到音頻轉換：該模型可以直接將文本描述轉換為相應的音頻輸出，實現(xiàn)文本與音頻的無縫連接。
偏好優(yōu)化：TANGOFLUX能夠根據(jù)用戶偏好和輸入文本的意圖優(yōu)化音頻輸出，提高匹配度。
非專有數(shù)據(jù)訓練：模型基于非專有數(shù)據(jù)集進行訓練，使其更加開放和可獲取。

TANGOFLUX的技術原理

變分自編碼器：通過VAE將音頻波形編碼為潛在表示，并從中重構原始音頻。
文本和時長嵌入：模型利用文本編碼和時長編碼來控制生成音頻的內容及時長，實現(xiàn)音頻生成的可控性。
FluxTransformer架構：構建于FluxTransformer模塊之上，結合了Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)，以處理文本提示并生成音頻。
流匹配（Flow Matching， FM）：采用流匹配框架，學習從簡單的先驗分布到復雜目標分布的映射，生成樣本。
CLAP-Ranked Preference Optimization (CRPO)：CRPO框架通過迭代生成偏好數(shù)據(jù)對，優(yōu)化音頻與文本的對齊。利用CLAP模型作為代理獎勵模型，基于文本和音頻的聯(lián)合嵌入評估音頻輸出的質量，構建偏好數(shù)據(jù)集以進行優(yōu)化。
直接偏好優(yōu)化：TANGOFLUX將直接偏好優(yōu)化（DPO）應用于流匹配，比較成功與失敗的音頻樣本，從而提升模型的音頻與文本描述的對齊度。