AI項目和框架

Speech 2.5

Speech 2.5 是 MiniMax 推出的新一代語音生成模型,在多語種表現力、音色復刻和語言覆蓋范圍上實現重大突破。模型支持40種語言,能精準還原不同語言和口音的...
閱讀原文

dots.vlm1

dots.vlm1 是小紅書 hi lab 開源的首個多模態大模型。基于一個從零訓練的 12 億參數視覺編碼器 NaViT 和 DeepSeek V3 大語言模型(LLM),具備強大的視覺感知...
閱讀原文

gpt-oss

GPT-OSS 是 OpenAI 推出的開源推理模型系列,包含 gpt-oss-120b 和 gpt-oss-20b 兩個版本。gpt-oss-120b 擁有1170億參數,激活參數約51億,能在單張 80GB GPU...
閱讀原文

Genie 3

Genie 3是谷歌DeepMind推出的新一代通用世界模型,能實時生成高度動態且連貫的虛擬世界。模型具備模擬物理現象、自然生態系統、奇幻場景和歷史場景的能力,支...
閱讀原文

Claude Opus 4.1

Claude Opus 4.1 是 Anthropic 公司最新推出的大型語言模型,是 Claude Opus 4 的升級版本。模型在多個方面進行優化和提升,包括推理質量、指令遵循能力及整...
閱讀原文

Chunkr

Chunkr 是 Lumina AI 推出的開源文檔處理 API,專為 RAG(檢索增強生成)和知識庫場景設計。Chunkr 能將復雜文檔(如 PDF、PPT、Word、圖片等)轉換為結構化...
閱讀原文

AudioGen-Omni

AudioGen-Omni是快手推出的多模態音頻生成框架,框架能基于視頻、文本等輸入生成高質量的音頻、語音和歌曲??蚣芡ㄟ^統一的歌詞-文本編碼器和相位對齊各向異...
閱讀原文

LangExtract

LangExtract 是谷歌開源的用在從非結構化文本中提取結構化信息的 Python 庫。LangExtract 用大型語言模型(LLM),自動處理臨床筆記、報告等材料,識別并組織...
閱讀原文

Qwen-Image

Qwen-Image 是阿里通義千問團隊開源的 20B 參數MMDiT模型,是通義千問系列中首個圖像生成基礎模型,模型在復雜文本渲染和精確圖像編輯方面表現出色,支持多行...
閱讀原文

MiDashengLM

MiDashengLM是小米開源的高效聲音理解大模型,具體參數版本為MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音頻編碼器和 Qwen2.5-Omni-7B Thinker 解碼器構建,...
閱讀原文

RedOne

RedOne 是小紅書推出的首個面向社交網絡服務(SNS)領域的定制化大語言模型(LLM)。模型通過三階段訓練策略,注入社交文化知識,強化多任務能力,并對齊平臺...
閱讀原文

Windows-MCP

Windows-MCP 是輕量級、開源的 AI Agent與 Windows 系統集成工具。Windows-MCP作為 MCP 服務器,讓大語言模型(LLM)能直接操作 Windows,實現文件瀏覽、應用...
閱讀原文

Skywork MindLink

Skywork MindLink是昆侖萬維推出開源的推理大模型。具有自適應推理機制,可根據任務復雜度靈活切換推理模式,簡單任務快速生成,復雜任務深度推理,兼顧效率...
閱讀原文

ScreenCoder

ScreenCoder 是開源的智能 UI 截圖轉代碼系統,支持將任何設計截圖快速轉換為整潔、可編輯的 HTML/CSS 代碼。ScreenCoder用模塊化多智能體架構,結合視覺理解...
閱讀原文

FastDeploy

FastDeploy 是百度基于飛槳(PaddlePaddle)框架開發的高性能推理與部署工具,專為大語言模型(LLMs)和視覺語言模型(VLMs)設計。FastDeploy 支持多種硬件...
閱讀原文