標簽:實時數據分析

Kimi-VL

Kimi-VL 是月之暗面開源的輕量級多模態視覺語言模型,基于 Mixture-of-Experts (MoE) 架構,總參數量為16B,推理時僅激活2.8B。Kimi-VL具備強大的多模態推理...
閱讀原文

日日新SenseNova V6

日日新SenseNova V6是商湯推出的日日新第六代多模態融合大模型系列,基于6000億參數的多模態MoE架構,實現文本、圖像和視頻的原生融合。日日新SenseNova V6在...
閱讀原文

Step-R1-V-Mini

Step-R1-V-Mini 是階躍星辰最新推出的多模態推理模型。支持圖文輸入和文字輸出,具備良好的指令遵循和通用能力,能高精度感知圖像完成復雜推理任務。模型在視...
閱讀原文

SkyReels-A2

SkyReels-A2是昆侖萬維推出的可控視頻生成框架,支持根據文本提示將任意視覺元素(如人物、物體、背景)組合成合成視頻,嚴格保持與每個元素的參考圖像的一致...

DeepSeek-GRM

DeepSeek-GRM是DeepSeek和清華大學研究者共同提出的通用獎勵模型(Generalist Reward Modeling)。通過點式生成式獎勵建模(Pointwise Generative Reward Mod...
閱讀原文

rabbitOS intern

rabbitOS Intern 由 AI 初創公司 rabbit inc. 推出的 AI 原生操作系統。通過協調多個智能代理(agents)來完成復雜任務,展現出類似實習生水平的人類能力。用...

Amodal3R

Amodal3R 是條件式 3D 生成模型,能從部分可見的 2D 物體圖像中推測并重建完整的 3D 形態和外觀。模型基于“基礎”3D 生成模型 TRELLIS 構建,通過引入掩碼加權...
閱讀原文

cpmGO

cpmGO (小鋼炮超級助手)是面壁智能推出的全球首個純端側智能助手,專為汽車智能座艙設計。cpmGO 基于面壁小鋼炮MiniCPM 端側模型開發,具備視覺、語音、多...
閱讀原文

OmniSQL

OmniSQL 是開源的文本到 SQL 模型,將自然語言問題高效轉換為 SQL 查詢語句。通過創新的數據合成框架生成了首個百萬量級的文本到 SQL 數據集 SynSQL-2.5M,包...
閱讀原文

RoboOS

RoboOS是智源研究院推出的首個跨本體具身大小腦協作框架。基于“大腦-小腦”分層架構,具身大腦RoboBrain負責全局感知與決策,小腦技能庫負責低延遲精準執行,...
閱讀原文

Vidu Q1

Vidu Q1 是清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍教授團隊推出的高可控視頻大模型。在多主體細節可控、音效同步可控、畫質增強等方...
閱讀原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 圖像生成模型。Ideogram 3.0在圖像生成質量上實現飛躍,具備高度的真實感、出色的文本渲染和強大的語言理解能力,支持生成...
閱讀原文

Wispr Flow

Wispr Flow 是AI語音轉文本工具,基于先進的AI技術,幫助用戶在任何應用程序中實現快速語音轉文字。Wispr Flow支持100多種語言,具備自動編輯、上下文感知和...
閱讀原文

UniFluid

UniFluid 是谷歌 DeepMind 和麻省理工學院聯合推出的,統一的自回歸框架,用在聯合視覺生成和理解任務。基于連續視覺標記處理多模態圖像和文本輸入,生成離散...
閱讀原文

Skywork R1V

Skywork R1V是昆侖萬維開源的首款工業界多模態思維鏈推理模型,具備強大的視覺鏈式推理能力。Skywork R1V能對視覺輸入進行多步邏輯推理,解決復雜的視覺任務...
閱讀原文
123410