whisper-diarization官網(wǎng)
whisper-diarization是一個結(jié)合了Whisper自動語音識別(ASR)能力、聲音活動檢測(VAD)和說話人嵌入技術(shù)的開源項目。它通過提取音頻中的聲音部分來提高說話人嵌入的準確性,然后使用Whisper生成轉(zhuǎn)錄文本,并通過WhisperX校正時間戳和對齊,以減少由于時間偏移導(dǎo)致的分割錯誤。接著,使用MarbleNet進行VAD和分割以排除靜音,TitaNet用于提取說話人嵌入以識別每個段落的說話人,最后將結(jié)果與WhisperX生成的時間戳關(guān)聯(lián),基于時間戳檢測每個單詞的說話人,并使用標點模型重新對齊以補償小的時間偏移。
whisper-diarization是什么?
whisper-diarization是一個基于OpenAI Whisper的開源項目,它能夠?qū)σ纛l文件進行自動語音識別和說話人分割。它結(jié)合了Whisper的ASR能力、聲音活動檢測(VAD)、說話人嵌入技術(shù)以及WhisperX時間戳校正等多種技術(shù),以提高轉(zhuǎn)錄和分割的準確性。簡單來說,它能識別音頻中不同說話人的聲音,并將其對應(yīng)的語音轉(zhuǎn)換成文本,并標注每個單詞的說話人。
whisper-diarization的主要功能
whisper-diarization的主要功能包括:自動語音識別(ASR)、說話人分割、聲音活動檢測(VAD)、時間戳校正和對齊、以及支持批處理推理。它可以將音頻文件轉(zhuǎn)換成文本,同時識別出每個說話人及其對應(yīng)的語音片段,并對結(jié)果進行時間戳校準,提高準確性。
如何使用whisper-diarization?
使用whisper-diarization需要以下步驟:首先,確保系統(tǒng)已安裝FFMPEG和Cython。然后,克隆或下載代碼庫。根據(jù)需要修改`diarize.py`和`helpers.py`中的WhisperX和NeMo參數(shù)。使用命令行工具,輸入?yún)?shù)和音頻文件名運行模型。根據(jù)系統(tǒng)VRAM容量選擇`diarize.py`或`diarize_parallel.py`。最后,檢查輸出結(jié)果的準確性。如有問題,可在GitHub上提交issue或pull request。
whisper-diarization的產(chǎn)品價格
whisper-diarization是一個開源項目,因此它是免費使用的。
whisper-diarization的常見問題
我的電腦配置不高,能運行whisper-diarization嗎? 你可以嘗試使用`diarize_parallel.py`進行處理,它可以利用多核CPU進行并行計算,降低對單個核心的壓力。如果仍然遇到問題,可以嘗試處理較短的音頻片段。
whisper-diarization的準確率如何? 準確率取決于音頻質(zhì)量、說話人數(shù)量、背景噪音等多種因素。一般來說,在理想條件下,它的準確率較高。但對于嘈雜環(huán)境或口音較重的音頻,準確率可能會降低。
whisper-diarization支持哪些音頻格式? whisper-diarization主要支持常見的音頻格式,例如WAV、MP3等。你可以嘗試不同的格式,如果遇到問題,請參考項目的文檔或在GitHub上提問。
whisper-diarization官網(wǎng)入口網(wǎng)址
https://github.com/MahmoudAshraf97/whisper-diarization
OpenI小編發(fā)現(xiàn)whisper-diarization網(wǎng)站非常受用戶歡迎,請訪問whisper-diarization網(wǎng)址入口試用。
數(shù)據(jù)評估
本站OpenI提供的whisper-diarization都來源于網(wǎng)絡(luò),不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2025年 1月 16日 下午2:30收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進行刪除,OpenI不承擔任何責任。