ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊推出RTFS-Net
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊推出RTFS-Net
關(guān)鍵字:維度,復(fù)雜度,模型,語音,方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4604字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部視聽語音分離(AVSS)技術(shù)旨在通過面部信息從混合信號中分離出目標(biāo)說話者的聲音。這項技術(shù)能夠應(yīng)用于智能助手、遠(yuǎn)程會議和增強(qiáng)現(xiàn)實等應(yīng)用,改進(jìn)在嘈雜環(huán)境中語音信號質(zhì)量。
傳統(tǒng)的視聽語音分離方法依賴于復(fù)雜的模型和大量的計算資源,尤其是在嘈雜背景或多說話者場景下,其性能往往受到限制。為了突破這些限制,基于深度學(xué)習(xí)的方法開始被研究和應(yīng)用。然而,現(xiàn)有的深度學(xué)習(xí)方法面臨著高計算復(fù)雜度和難以泛化到未知環(huán)境的挑戰(zhàn)。
具體來說,當(dāng)前視聽語音分離方法存在如下問題:
時域方法:可提供高質(zhì)量的音頻分離效果,但由于參數(shù)較多,計算復(fù)雜度較高,處理速度較慢。
時頻域方法:計算效率更高,但與時域方法相比,歷來表現(xiàn)不佳。它們面臨三個主要挑戰(zhàn):
1. 缺乏時間和頻率維度的建模。
2. 沒有充分利用來自多個感受野的視覺線索來提高模型性能。
3. 對復(fù)數(shù)特征處理不當(dāng),導(dǎo)致丟失關(guān)鍵的振幅和相位信息。
為了克服這些挑戰(zhàn),來自清華大學(xué)胡曉林副教授團(tuán)隊的研究者們提出了 RTFS-Net:一種全新的視聽語音分離模型。RTFS-Net 通過壓縮 – 重建的方式,在提高分離性能的同時,大幅減少了模型的計算復(fù)雜
原文鏈接:ICLR 2024 | 為音視頻分離提供新視角,清華大學(xué)胡曉林團(tuán)隊推出RTFS-Net
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺