AI項目和框架
Speech 2.5
Speech 2.5 是 MiniMax 推出的新一代語音生成模型,在多語種表現力、音色復刻和語言覆蓋范圍上實現重大突破。模型支持40種語言,能精準還原不同語言和口音的...
Claude Opus 4.1
Claude Opus 4.1 是 Anthropic 公司最新推出的大型語言模型,是 Claude Opus 4 的升級版本。模型在多個方面進行優化和提升,包括推理質量、指令遵循能力及整...
AudioGen-Omni
AudioGen-Omni是快手推出的多模態音頻生成框架,框架能基于視頻、文本等輸入生成高質量的音頻、語音和歌曲??蚣芡ㄟ^統一的歌詞-文本編碼器和相位對齊各向異...
LangExtract
LangExtract 是谷歌開源的用在從非結構化文本中提取結構化信息的 Python 庫。LangExtract 用大型語言模型(LLM),自動處理臨床筆記、報告等材料,識別并組織...
Qwen-Image
Qwen-Image 是阿里通義千問團隊開源的 20B 參數MMDiT模型,是通義千問系列中首個圖像生成基礎模型,模型在復雜文本渲染和精確圖像編輯方面表現出色,支持多行...
MiDashengLM
MiDashengLM是小米開源的高效聲音理解大模型,具體參數版本為MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音頻編碼器和 Qwen2.5-Omni-7B Thinker 解碼器構建,...
Windows-MCP
Windows-MCP 是輕量級、開源的 AI Agent與 Windows 系統集成工具。Windows-MCP作為 MCP 服務器,讓大語言模型(LLM)能直接操作 Windows,實現文件瀏覽、應用...
Skywork MindLink
Skywork MindLink是昆侖萬維推出開源的推理大模型。具有自適應推理機制,可根據任務復雜度靈活切換推理模式,簡單任務快速生成,復雜任務深度推理,兼顧效率...
ScreenCoder
ScreenCoder 是開源的智能 UI 截圖轉代碼系統,支持將任何設計截圖快速轉換為整潔、可編輯的 HTML/CSS 代碼。ScreenCoder用模塊化多智能體架構,結合視覺理解...
FastDeploy
FastDeploy 是百度基于飛槳(PaddlePaddle)框架開發的高性能推理與部署工具,專為大語言模型(LLMs)和視覺語言模型(VLMs)設計。FastDeploy 支持多種硬件...