標簽:語音識別

Audio-SDS

Audio-SDS是NVIDIA AI研究團隊推出的創新技術,將Score Distillation Sampling(SDS)技術擴展至文本條件音頻擴散模型,為音頻處理領域帶來了重大突破。無需...
閱讀原文

Day.ai

Day.ai 是 HubSpot 前高管創立的 AI 原生 CRM 工具,通過 AI 技術自動從電子郵件和視頻會議中提取信息,為客戶創建完善的 CRM 系統。核心功能包括AI 驅動的會...
閱讀原文

BILIVE

BILIVE 是一款基于 AI 技術的開源工具,專為 B 站直播錄制與處理設計。工具支持自動錄制直播、渲染彈幕和字幕,支持語音識別、自動切片精彩片段,生成有趣的...
閱讀原文

Mogao

Mogao是字節跳動Seed團隊推出的交錯多模態生成全基礎模型。在架構上采用了雙視覺編碼器,結合變分自編碼器(VAE)和視覺變換器(ViT),能更好地進行視覺理解...
閱讀原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英偉達推出的開源自動語音識別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構,通過預測文本標記及其持續時間加速推理,減少計算...
閱讀原文

oli

oli 是開源的智能代碼助手,支持為開發者提供強大的編程支持。基于現代化的混合架構,結合 Rust 后端的高性能和 React/Ink 前端的交互式終端界面。oli 支持多...
閱讀原文

Ztalk.ai

Ztalk.ai 是AI桌面應用程序,專注于實時語音翻譯。支持超過30種語言,延遲小于100毫秒,能與Zoom、Google Meet、Teams等主流視頻會議工具無縫集成。
閱讀原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升級版多模態AI模型,具體版本號為 Gemini 2.5 Pro Preview 05-06。模型在編程能力上取得重大突破...
閱讀原文

攻殼智能體

攻殼智能體是專注于智能體和 AI 工具的門戶網站,為用戶介紹最新、熱門的智能體和 AI 工具,幫助用戶快速找到適合自己的學習、工作、生活的 AI 利器。通過精...
閱讀原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 開發的輕量級音頻模型,基于 Qwen-2.5-1.5B 構建,僅包含 1.5 億參數。專為長音頻處理設計,能支持長達 15 分鐘的連續音頻輸入,無...
閱讀原文

Spring.new

Spring.new 是基于人工智能的低代碼/無代碼構建平臺,幫助用戶快速構建和部署定制化的商業應用程序。通過自然語言輸入,用戶可以將想法轉化為實際應用,無需...
閱讀原文

URM

URM(Universal Recommendation Model)是阿里媽媽推出的世界知識大模型,基于知識注入和信息對齊,將LLM的通用知識與電商領域的專業知識相結合,解決傳統LLM...
閱讀原文

風宇

風宇是中國氣象局聯合南昌大學和華為共同推出的全球首個全鏈式空間天氣大模型。模型基于創新的鏈式訓練結構,結合衛星觀測數據與數值模式數據,實現太陽風、...
閱讀原文

Hyprnote

Hyprnote 是為會議設計的AI筆記應用?;趯崟r記錄會議內容結合用戶筆記,快速生成高質量的會議總結。Hyprnote 支持離線使用,所有數據存儲在本地,確保隱私...
閱讀原文

Miras

Miras是谷歌推出的用在深度學習架構設計的通用框架,特別是序列建模任務。Miras基于關聯記憶和注意力偏差的概念,將Transformer、現代線性RNN等模型重新定義...
閱讀原文