GTSinger是一個由浙江大學研究團隊開發的大型開源高質量歌聲數據集,旨在支持多種歌聲任務。該數據集包含80.59小時的專業錄音棚錄制的歌聲,涵蓋九種語言,包括漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語,由20位專業歌手演唱,展現出豐富的音色和風格多樣性。
GTSinger是什么
GTSinger是浙江大學研究團隊推出的一款大型開源高質量歌聲數據集,專注于支持多元化的歌聲相關任務。該數據集包含80.59小時的專業錄音棚錄制的歌聲,覆蓋九種不同的語言,包括漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和意大利語,所有錄音均由20位專業歌手演唱,呈現出豐富多彩的音色與風格。GTSinger特別關注歌唱技巧的控制與建模,提供六種常用歌唱技巧的對照組和音素級標注,并附有真實樂譜,便于實際音樂創作。數據集還包括人工音素對齊、全局風格標簽及配對朗讀數據,適應各種歌聲任務。
GTSinger的主要功能
- 多語言歌聲數據集:GTSinger提供九種不同語言的歌聲,支持跨語言的歌聲合成與分析,展現多樣的音色和風格。
- 歌唱技巧控制:該數據集提供六種常用歌唱技巧的對照組和音素級標注,幫助研究者更好地建模和控制歌聲中的技巧。
- 真實樂譜支持:伴隨歌聲提供匹配的真實樂譜,為歌聲合成技術在實際音樂創作中的應用提供便利。
- 多任務適配:GTSinger設計支持多種歌聲任務,包括歌聲合成、技巧識別、風格遷移及語音轉歌聲等。
- 基準測試:數據集提供基準測試,用于評估在不同歌聲任務下的表現和適用性。
GTSinger的技術原理
- 高質量音頻錄制:GTSinger的數據集在專業錄音棚中錄制,確保音頻數據的高品質。
- 音素對齊與標注:應用音樂信息檢索技術(如MFA和Praat)進行音素對齊與標注,實現音素級的精確控制。
- 歌唱技巧標注:通過專家聽感和音頻分析技術對歌聲中的歌唱技巧進行標注,便于模型學習與控制。
- 樂譜生成:結合音頻信號處理技術與音樂理論,從歌聲中提取音高信息,生成MIDI形式的樂譜,并由專家調整為真實樂譜。
- 數據集構建與驗證:通過人工審核和后期處理,確保數據集的質量與適用性,包括音頻片段的語義分割和無聲區域的處理。
GTSinger的項目地址
- 項目官網:gtsinger.github.io
- GitHub倉庫:https://github.com/GTSinger/GTSinger
- HuggingFace模型庫:https://huggingface.co/datasets/GTSinger/GTSinger
- arXiv技術論文:https://arxiv.org/pdf/2409.13832
GTSinger的應用場景
- 歌聲合成:基于數據集中的歌聲樣本和技巧標注,開發出合成特定技巧和風格的高質量歌聲的系統。
- 歌聲技巧識別:分析歌聲中的音素級技巧標注,訓練模型識別與分類不同的歌聲技巧。
- 歌聲風格遷移:將一種風格的歌聲轉換為另一種風格,例如將流行歌曲的歌聲轉化為古典風格。
- 語音轉歌聲(Speech-to-Singing,STS):將普通語音轉化為旋律化的歌聲,應用于語音合成和音樂創作。
- 音樂教育:利用數據集中的真實樂譜和歌聲樣本,開發音樂教育工具,幫助學生學習與練習唱歌技巧。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...