一款高質量的英語自動語音識別模型,支持標點符號和時間戳預測。
精確到詞級的自動語音識別模型
統一的開放命名實體和語音識別模型
聯合語音轉錄和實體識別的先進模型
實時瀏覽器端語音識別應用
自動語音識別工具,提供詞級時間戳和說話人識別
高效自動語音識別模型
NeMo是一款由NVIDIA開發的生成式人工智能框架,可用于構建大型語言模型、多模態模型、自動語音識別和文本到語音合成等應用。NeMo框架具有高效性、靈活性和易用性,可滿足研究人員和開發者的需求。,NeMo官網入口網址
Voci是一款高效、準確的自動語音識別產品,可以將聯系中心呼叫轉錄為文字,幫助企業提升客戶體驗和獲取有價值的數據。,Voci Technologies官網入口網址
Whisper是一個接近人類級別準確性的自動語音識別系統,具有魯棒性和多語言轉錄翻譯功能。,Whisper by OpenAI官網入口網址
Vivoka提供一種全方位解決方案,使任何公司能夠在最短時間內創建自己的高性能、安全的離線語音AI助手。該解決方案包括喚醒詞、自動語音識別、自然語言理解、語音生物識別、語音合成和音頻增強等功能。它適用于智能眼鏡、供應鏈、維護報告、虛擬現實、嵌入式系統和智能建筑等多個應用場景。,Vivoka官網入口網址
zeroscope_v2_XL官網入口網址,管道標簽不在官方列表中
SpeechFlow官網入口網址,SpeechFlow Speech Recognition API 是一款功能強大的工具,可將聲音轉換為文本、語音轉換為文本和音頻轉換為文本,準確率高達 14 種語言。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙