產品名稱:Freestyler
產品簡介:Freestyler是西北工業大學計算機科學學院音頻、語音與語言處理小組(ASLP@NPU)、微軟及香港中文大學深圳研究院大數據研究所共同推出的說唱樂生成模型,能直接根據歌詞和伴奏創作出說唱音樂。
詳細介紹:
Freestyler是什么
Freestyler是西北工業大學計算機科學學院音頻、語音與語言處理小組(ASLP@NPU)、微軟及香港中文大學深圳研究院大數據研究所共同推出的說唱樂生成模型,能直接根據歌詞和伴奏創作出說唱音樂。Freestyler基于語言模型生成語義標記,再基于條件流匹配模型產生頻譜圖,最后用神經聲碼器轉換成音頻。Freestyler推出RapBank數據集,支持訓練和模型開發,能實現零樣本的音色控制,讓用戶生成具有特定音色的說唱聲樂。

Freestyler的主要功能
- 說唱聲樂生成:直接從歌詞和伴奏輸入生成說唱聲樂,無需用戶具備音樂知識。
- 零樣本音色控制:基于3秒的參考音頻,Freestyler能適應任何說話者的音色,實現零樣本的音色控制。
- 數據集創建:為解決說唱數據的稀缺問題,團隊創建RapBank數據集,并提供數據處理流程。
- 風格和節奏對齊:生成的說唱聲音與伴奏的風格和節奏高度對齊,包含在風格上和節奏上。
- 高質量音頻輸出:基于先進的聲碼器技術,生成自然且高質量的說唱音頻。
Freestyler的技術原理
- 歌詞到語義(Lyrics-to-Semantic):
- 用語言模型(如LLaMA)預測基于歌詞和伴奏特征的離散語義標記。
- 基于Wav2Vec XLS-R等自監督學習(SSL)模型提取特征,用K-means聚類得到語義標記。
- 語義到頻譜圖(Semantic-to-Spectrogram):
- 應用條件流匹配(CFM)技術將離散語義標記轉換為連續的mel頻譜圖。
- 參考音頻被納入CFM模型,補充語義標記中缺失的音色信息。
- 頻譜圖到音頻(Spectrogram-to-Audio):
- 用預訓練的聲碼器(如BigVGAN-V2)從頻譜圖中重建音頻。
- 聲碼器能處理多種類型的音頻數據,包括不同語言的語音、歌唱和環境聲音。
- 數據集和處理流程:
- RapBank數據集包含從互聯網收集的大量說唱歌曲,經過自動爬取、源分離、分割、歌詞識別和質量過濾等步驟處理。
- 數據集處理包括音樂源分離、語音活動檢測(VAD)分割、自動語音識別(ASR)歌詞識別和質量相關指標計算。
- 零樣本控制:參考編碼器從參考音頻中提取全局說話者嵌入,用在控制生成聲音的音色。
Freestyler的項目地址
- GitHub倉庫:https://github.com/NZqian/RapBank
- arXiv技術論文:https://arxiv.org/pdf/2408.15474
Freestyler的應用場景
- 音樂創作:為音樂制作人和作曲家提供靈感,快速生成說唱歌詞和聲樂,創作新的音樂作品。
- 現場表演:在音樂會或DJ表演中,實時生成伴隨音樂的說唱聲樂,為現場觀眾提供動態的音樂體驗。
- 游戲音效:在視頻游戲中,生成角色的說唱音效,增強游戲的沉浸感和互動性。
- 教育與培訓:在音樂教育中,幫助學生學習說唱技巧和音樂創作,用生成示范音頻提高學習效果。
- 社交媒體內容創作:內容創作者生成獨特的說唱音頻,豐富其社交媒體平臺上的視頻或音頻內容,吸引更多觀眾。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號