<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        TANGOFLUX

        AI工具4個(gè)月前發(fā)布 AI工具集
        717 0 0

        TANGOFLUX – 英偉達(dá)聯(lián)合新加坡科技設(shè)計(jì)大學(xué)開(kāi)源的文本到音頻生成模型

        TANGOFLUX是什么

        TANGOFLUX是一款高效的文本轉(zhuǎn)音頻生成模型,由新加坡科技設(shè)計(jì)大學(xué)(SUTD)與NVIDIA聯(lián)合開(kāi)發(fā)。該模型擁有約5.15億個(gè)參數(shù),能夠在單個(gè)A40 GPU上,在僅需3.7秒的時(shí)間內(nèi)生成時(shí)長(zhǎng)最長(zhǎng)可達(dá)30秒的44.1kHz音頻。TANGOFLUX采用了CLAP-Ranked Preference Optimization(CRPO)框架,通過(guò)迭代生成和優(yōu)化偏好數(shù)據(jù),提升了模型在音頻對(duì)齊方面的能力。其在多項(xiàng)客觀和主觀基準(zhǔn)測(cè)試中表現(xiàn)卓越,并已在GitHub等平臺(tái)上開(kāi)源代碼和模型,便于進(jìn)一步研究。

        TANGOFLUX

        TANGOFLUX的主要功能

        • 高效音頻生成:TANGOFLUX能夠迅速生成高質(zhì)量音頻內(nèi)容,僅需3.7秒即可產(chǎn)生長(zhǎng)達(dá)30秒的44.1kHz音頻。
        • 文本到音頻轉(zhuǎn)換:該模型可以直接將文本描述轉(zhuǎn)換為相應(yīng)的音頻輸出,實(shí)現(xiàn)文本與音頻的無(wú)縫連接。
        • 偏好優(yōu)化:TANGOFLUX能夠根據(jù)用戶(hù)偏好和輸入文本的意圖優(yōu)化音頻輸出,提高匹配度。
        • 非專(zhuān)有數(shù)據(jù)訓(xùn)練:模型基于非專(zhuān)有數(shù)據(jù)集進(jìn)行訓(xùn)練,使其更加開(kāi)放和可獲取。

        TANGOFLUX的技術(shù)原理

        • 變分自編碼器:通過(guò)VAE將音頻波形編碼為潛在表示,并從中重構(gòu)原始音頻。
        • 文本和時(shí)長(zhǎng)嵌入:模型利用文本編碼和時(shí)長(zhǎng)編碼來(lái)控制生成音頻的內(nèi)容及時(shí)長(zhǎng),實(shí)現(xiàn)音頻生成的可控性。
        • FluxTransformer架構(gòu):構(gòu)建于FluxTransformer模塊之上,結(jié)合了Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT),以處理文本提示并生成音頻。
        • 流匹配(Flow Matching, FM):采用流匹配框架,學(xué)習(xí)從簡(jiǎn)單的先驗(yàn)分布到復(fù)雜目標(biāo)分布的映射,生成樣本。
        • CLAP-Ranked Preference Optimization (CRPO):CRPO框架通過(guò)迭代生成偏好數(shù)據(jù)對(duì),優(yōu)化音頻與文本的對(duì)齊。利用CLAP模型作為代理獎(jiǎng)勵(lì)模型,基于文本和音頻的聯(lián)合嵌入評(píng)估音頻輸出的質(zhì)量,構(gòu)建偏好數(shù)據(jù)集以進(jìn)行優(yōu)化。
        • 直接偏好優(yōu)化:TANGOFLUX將直接偏好優(yōu)化(DPO)應(yīng)用于流匹配,比較成功與失敗的音頻樣本,從而提升模型的音頻與文本描述的對(duì)齊度。

        TANGOFLUX的項(xiàng)目地址

        TANGOFLUX的應(yīng)用場(chǎng)景

        • 多媒體內(nèi)容創(chuàng)作:在電影、游戲、廣告及視頻制作中,TANGOFLUX可用于生成背景音樂(lè)、音效和配音,顯著提升制作效率并降低成本。
        • 音頻制作與設(shè)計(jì):音樂(lè)制作人和聲音設(shè)計(jì)師可利用該模型創(chuàng)作新的音樂(lè)作品或設(shè)計(jì)特定音效。
        • 播客與有聲書(shū):為播客或有聲書(shū)自動(dòng)生成背景音樂(lè)和音效,增強(qiáng)聽(tīng)眾的聽(tīng)覺(jué)體驗(yàn)。
        • 教育與培訓(xùn):在教育領(lǐng)域,TANGOFLUX可用于創(chuàng)建模擬真實(shí)場(chǎng)景的音頻,輔助語(yǔ)言學(xué)習(xí)或?qū)I(yè)技能訓(xùn)練。
        • 虛擬助手與機(jī)器人:為虛擬助手和機(jī)器人提供更加自然且豐富的語(yǔ)音反饋,提升用戶(hù)的互動(dòng)體驗(yàn)。

        常見(jiàn)問(wèn)題

        • Q: TANGOFLUX是否適用于所有類(lèi)型的文本?
          A: 是的,TANGOFLUX能夠處理多種類(lèi)的文本輸入并生成相應(yīng)的音頻輸出。
        • Q: 我可以在本地運(yùn)行TANGOFLUX嗎?
          A: 是的,您可以通過(guò)GitHub上的開(kāi)源代碼在本地環(huán)境中運(yùn)行TANGOFLUX。
        • Q: TANGOFLUX支持哪些語(yǔ)言?
          A: 目前,TANGOFLUX主要支持多種主要語(yǔ)言的文本生成,具體取決于訓(xùn)練數(shù)據(jù)的覆蓋范圍。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 久久经典免费视频| 成在线人免费无码高潮喷水| 2020天堂在线亚洲精品专区| 亚洲国产综合专区在线电影 | 人妻无码中文字幕免费视频蜜桃| 亚洲中文字幕乱码熟女在线| 中文有码亚洲制服av片| 亚洲精华国产精华精华液| 亚洲av无码有乱码在线观看| 四虎免费影院4hu永久免费| 日日夜夜精品免费视频| 国产一区二区三区在线免费| 免费国产在线观看| 亚洲日韩中文字幕日韩在线| 青青草原亚洲视频| 亚洲爆乳无码专区| 亚洲蜜芽在线精品一区| 亚洲中文字幕久久久一区| 亚洲成a人无码亚洲成av无码| 黄色一级视频免费| 中国内地毛片免费高清| 久久精品国产大片免费观看| 一日本道a高清免费播放 | 97se亚洲国产综合自在线| 亚洲一区二区三区成人网站| MM1313亚洲精品无码久久| 国产免费人成视频尤勿视频| 久久综合九色综合97免费下载| 中文字幕免费高清视频| 日韩吃奶摸下AA片免费观看| 免费无码又爽又刺激高潮视频| 老司机精品免费视频| 无码成A毛片免费| 无码一区二区三区免费视频| 大胆亚洲人体视频| 亚洲av无码国产精品夜色午夜| 亚洲国产精品成人精品小说| 国产精品无码亚洲一区二区三区| 中文字幕免费在线看电影大全| 免费无码又爽又刺激高潮视频| 免费观看理论片毛片|