TIGER – 清華大學推出的輕量級語音分離模型
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是一款由清華大學研究團隊開發的輕量化語音分離模型。其創新的時頻交叉建模策略結合頻帶切分和多尺度注意力機制,不僅顯著提升了語音分離的效果,還有效降低了參數數量和計算復雜度。
什么是TIGER
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清華大學研究團隊推出的一款輕量級語音分離模型。該模型采用時頻交叉建模策略,通過頻帶切分和多尺度注意力機制,顯著提高了語音分離的性能,同時減少了模型所需的參數數量和計算資源。TIGER的創新之處在于其時頻交叉建模模塊(FFI),能夠高效整合時間和頻率信息,以更好地提取語音特征。模型還引入了多尺度選擇性注意力模塊(MSA)和全頻/幀注意力模塊(F3A),進一步優化了特征提取能力。
TIGER的主要功能
- 高效語音分離:TIGER利用時頻交叉建模模塊(FFI)和多尺度注意力機制,能夠有效分離混合語音中的不同發言者。
- 低計算和參數需求:該模型在壓縮了94.3%的參數量和95.3%的計算量后,依然保持與當前最先進模型相當的性能。
- 適應復雜聲學環境:TIGER通過EchoSet數據集模擬真實場景中的噪聲和混響,從而提升模型在復雜環境下的魯棒性。
TIGER的技術原理
- 時頻交叉建模策略:TIGER的核心是時頻交叉建模模塊(FFI),通過交替處理時間和頻率信息,有效整合時頻特征。該模塊由頻率路徑和幀路徑組成,每個路徑都包含多尺度選擇性注意力模塊(MSA)和全頻/幀注意力模塊(F3A),融合局部和全局信息,增強語音分離效果。
- 頻帶切分:語音信號的能量在不同頻帶上分布不均,中低頻帶包含更多的語音信息,而高頻帶則包含更多的噪聲和細節。TIGER通過頻帶切分策略,將頻帶劃分為不同寬度的子帶,減少計算量的同時,使模型更專注于關鍵頻帶。
- 多尺度注意力機制:TIGER引入了多尺度選擇性注意力模塊(MSA),通過多尺度卷積層和選擇性注意力機制,增強模型對多尺度特征的提取能力。
- 整體流程:TIGER的整體流程包括五個部分:
- 編碼器:利用短時傅里葉變換(STFT)將混合音頻信號轉換為時頻表示。
- 頻帶切分模塊:將整個頻帶劃分為多個子帶,每個子帶通過一維卷積轉換為統一的特征維度。
- 分離器:由多個時頻交叉建模模塊(FFI)組成,用于提取每個說話者的聲學特征。
- 頻帶恢復模塊:將子帶恢復到全頻帶范圍。
- 解碼器:通過逆短時傅里葉變換(iSTFT)生成每個說話者的清晰語音信號。
TIGER的項目地址
- 項目官網:https://cslikai.cn/TIGER/
- Github倉庫:https://github.com/JusperLee/TIGER
- arXiv技術論文:https://arxiv.org/pdf/2410.01469
TIGER的應用場景
- 會議及演講記錄:在多發言者的會議或演講中,TIGER能夠有效分離不同發言者的聲音,提高會議記錄的效率及準確性。
- 視頻剪輯與制作:在視頻內容創作中,TIGER可以精準分離主播與背景音或其他人物的語音,便于后期制作與剪輯。
- 電影音頻處理:TIGER在電影音頻分離任務中表現優異,能夠分離出人聲、音樂和音效,從而提升音頻處理的靈活性和質量。
- 智能語音助手:在智能語音助手的應用中,TIGER能夠幫助分離用戶的語音和背景噪聲,從而提升語音交互體驗。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...