SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
SongGen是什么
SongGen是由上海AI Lab、北京航空航天大學(xué)和香港中文大合開發(fā)的一種先進的單階段自回歸Transformer模型,主要用于根據(jù)文本生成歌曲。該模型以歌詞及描述性文本(如樂器、風(fēng)格、情感等)為輸入,提供兩種輸出模式:混合模式和模式?;旌夏J接糜谏砂寺暫桶樽嗟暮铣梢纛l,而模式則分別生聲和伴奏,便于后期編輯和處理。SongGen通過創(chuàng)新的音頻標(biāo)記化技術(shù)和訓(xùn)練策略,顯著提升了生成歌曲的自然性和人聲的清晰度,有效解決了傳統(tǒng)多階段生成方法中復(fù)雜的訓(xùn)練和推理流程。它的開源特性和高質(zhì)量的數(shù)據(jù)集為未來的音樂生成研究奠定了新的基準(zhǔn)。

SongGen的主要功能
- 精細(xì)控制:用戶可以基于歌詞和描述性文本(如樂器、風(fēng)格、情感等)對生成的歌曲進行精準(zhǔn)控制。
- 聲音克隆:支持通過三秒的參考音頻實現(xiàn)聲音克隆,使生成的歌曲能夠呈現(xiàn)特定歌手的音色特征。
- 雙重生成模式:提供“混合模式”(直接生聲與伴奏的混合音頻)和“模式”(分別生成便于后期編輯的人聲和伴奏)。
- 高質(zhì)量音頻輸出:通過優(yōu)化的音頻標(biāo)記化和訓(xùn)練策略,生成自然度高且人聲清晰的歌曲。
SongGen的技術(shù)原理
- 自回歸生成框架:利用自回歸Transformer解碼器,將歌詞和描述性文本編碼為條件輸入,運用交叉注意力機制引導(dǎo)音頻標(biāo)記生成。
- 音頻標(biāo)記化:采用X-Codec將音頻信號轉(zhuǎn)換為離散的音頻標(biāo)記,支持在多代碼序列中進行高效生成。
- 混合模式與模式:
- 混合模式:直接生成混合音頻標(biāo)記,并引入輔助人聲音頻標(biāo)記預(yù)測目標(biāo)(Mixed Pro),提升人聲清晰度。
- 模式:在平行或交錯的模式下分別生成聲道標(biāo)記,確保人聲與伴奏在幀級別上的精準(zhǔn)對齊,從而提高生成質(zhì)量。
- 條件輸入編碼:
- 歌詞編碼:使用VoiceBPE分詞器將歌詞轉(zhuǎn)化為音素級標(biāo)記,配合小型Transformer編碼器提取關(guān)鍵發(fā)音信息。
- 聲音編碼:MERT模型用于提取參考音頻的音色特征,支持聲音克隆的實現(xiàn)。
- 文本描述編碼:FLAN-T5模型將描述性文本編碼為特征向量,從而提供音樂風(fēng)格、情感等方面的控制。
- 訓(xùn)練策略:
- 多階段訓(xùn)練:包括模態(tài)對齊、無參考音頻支持和高質(zhì)量微調(diào),逐步提升模型的性能。
- 課程學(xué)習(xí):逐步調(diào)整代碼本損失權(quán)重,以優(yōu)化模型對音頻細(xì)節(jié)的學(xué)習(xí)能力。
- 數(shù)據(jù)預(yù)處理:開發(fā)自動化數(shù)據(jù)預(yù)處理管道,從多種數(shù)據(jù)源收集音頻,分離人聲與伴奏,生成高質(zhì)量的歌詞和描述性文本數(shù)據(jù)集。
SongGen的項目地址
- GitHub倉庫:https://github.com/LiuZH-19/SongGen
- arXiv技術(shù)論文:https://arxiv.org/pdf/2502.13128
SongGen的應(yīng)用場景
- 音樂創(chuàng)作:快速生成歌曲的初步版本,探索不同的音樂風(fēng)格,并為歌詞生成伴奏,加快創(chuàng)作進程。
- 視頻配樂:為短視頻、廣告和電影創(chuàng)作背景音樂,根據(jù)內(nèi)容調(diào)整風(fēng)格,從而提升視覺效果。
- 教育輔助:幫助學(xué)生理解音樂創(chuàng)作,通過生成歌曲學(xué)言發(fā)音,激發(fā)他們的創(chuàng)造力。
- 個性化體驗:根據(jù)用戶輸入生成定制化的歌曲,并通過聲音克隆實現(xiàn)“個人專屬歌手”,增強娛樂性。
- 商業(yè)應(yīng)用:為品牌量身定制專屬音樂,替代版權(quán)受限的音樂素材,用于廣告和市場推廣。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號