標簽:語音識別
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
Gemini 2.5 Pro (I/O 版)
Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升級版多模態AI模型,具體版本號為 Gemini 2.5 Pro Preview 05-06。模型在編程能力上取得重大突破...
Aero-1-Audio
Aero-1-Audio 是 LMMs-Lab 開發的輕量級音頻模型,基于 Qwen-2.5-1.5B 構建,僅包含 1.5 億參數。專為長音頻處理設計,能支持長達 15 分鐘的連續音頻輸入,無...