whisper-diarization
基于OpenAI Whisper的自動(dòng)語(yǔ)音識(shí)別與說(shuō)話人分割
標(biāo)簽:語(yǔ)音處理聲音活動(dòng)檢測(cè) 自動(dòng)轉(zhuǎn)錄 語(yǔ)音識(shí)別 說(shuō)話人分割whisper-diarization官網(wǎng)
whisper-diarization是一個(gè)結(jié)合了Whisper自動(dòng)語(yǔ)音識(shí)別(ASR)能力、聲音活動(dòng)檢測(cè)(VAD)和說(shuō)話人嵌入技術(shù)的開(kāi)源項(xiàng)目。它通過(guò)提取音頻中的聲音部分來(lái)提高說(shuō)話人嵌入的準(zhǔn)確性,然后使用Whisper生成轉(zhuǎn)錄文本,并通過(guò)WhisperX校正時(shí)間戳和對(duì)齊,以減少由于時(shí)間偏移導(dǎo)致的分割錯(cuò)誤。接著,使用MarbleNet進(jìn)行VAD和分割以排除靜音,TitaNet用于提取說(shuō)話人嵌入以識(shí)別每個(gè)段落的說(shuō)話人,最后將結(jié)果與WhisperX生成的時(shí)間戳關(guān)聯(lián),基于時(shí)間戳檢測(cè)每個(gè)單詞的說(shuō)話人,并使用標(biāo)點(diǎn)模型重新對(duì)齊以補(bǔ)償小的時(shí)間偏移。
whisper-diarization是什么?
whisper-diarization是一個(gè)基于OpenAI Whisper的開(kāi)源項(xiàng)目,它能夠?qū)σ纛l文件進(jìn)行自動(dòng)語(yǔ)音識(shí)別和說(shuō)話人分割。它結(jié)合了Whisper的ASR能力、聲音活動(dòng)檢測(cè)(VAD)、說(shuō)話人嵌入技術(shù)以及WhisperX時(shí)間戳校正等多種技術(shù),以提高轉(zhuǎn)錄和分割的準(zhǔn)確性。簡(jiǎn)單來(lái)說(shuō),它能識(shí)別音頻中不同說(shuō)話人的聲音,并將其對(duì)應(yīng)的語(yǔ)音轉(zhuǎn)換成文本,并標(biāo)注每個(gè)單詞的說(shuō)話人。
whisper-diarization的主要功能
whisper-diarization的主要功能包括:自動(dòng)語(yǔ)音識(shí)別(ASR)、說(shuō)話人分割、聲音活動(dòng)檢測(cè)(VAD)、時(shí)間戳校正和對(duì)齊、以及支持批處理推理。它可以將音頻文件轉(zhuǎn)換成文本,同時(shí)識(shí)別出每個(gè)說(shuō)話人及其對(duì)應(yīng)的語(yǔ)音片段,并對(duì)結(jié)果進(jìn)行時(shí)間戳校準(zhǔn),提高準(zhǔn)確性。
如何使用whisper-diarization?
使用whisper-diarization需要以下步驟:首先,確保系統(tǒng)已安裝FFMPEG和Cython。然后,克隆或下載代碼庫(kù)。根據(jù)需要修改`diarize.py`和`helpers.py`中的WhisperX和NeMo參數(shù)。使用命令行工具,輸入?yún)?shù)和音頻文件名運(yùn)行模型。根據(jù)系統(tǒng)VRAM容量選擇`diarize.py`或`diarize_parallel.py`。最后,檢查輸出結(jié)果的準(zhǔn)確性。如有問(wèn)題,可在GitHub上提交issue或pull request。
whisper-diarization的產(chǎn)品價(jià)格
whisper-diarization是一個(gè)開(kāi)源項(xiàng)目,因此它是免費(fèi)使用的。
whisper-diarization的常見(jiàn)問(wèn)題
我的電腦配置不高,能運(yùn)行whisper-diarization嗎? 你可以嘗試使用`diarize_parallel.py`進(jìn)行處理,它可以利用多核CPU進(jìn)行并行計(jì)算,降低對(duì)單個(gè)核心的壓力。如果仍然遇到問(wèn)題,可以嘗試處理較短的音頻片段。
whisper-diarization的準(zhǔn)確率如何? 準(zhǔn)確率取決于音頻質(zhì)量、說(shuō)話人數(shù)量、背景噪音等多種因素。一般來(lái)說(shuō),在理想條件下,它的準(zhǔn)確率較高。但對(duì)于嘈雜環(huán)境或口音較重的音頻,準(zhǔn)確率可能會(huì)降低。
whisper-diarization支持哪些音頻格式? whisper-diarization主要支持常見(jiàn)的音頻格式,例如WAV、MP3等。你可以嘗試不同的格式,如果遇到問(wèn)題,請(qǐng)參考項(xiàng)目的文檔或在GitHub上提問(wèn)。
whisper-diarization官網(wǎng)入口網(wǎng)址
https://github.com/MahmoudAshraf97/whisper-diarization
OpenI小編發(fā)現(xiàn)whisper-diarization網(wǎng)站非常受用戶歡迎,請(qǐng)?jiān)L問(wèn)whisper-diarization網(wǎng)址入口試用。
數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)評(píng)估
本站OpenI提供的whisper-diarization都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2025年 1月 16日 下午2:30收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。