AI項目和框架

MiniCPM-V 4.5

MiniCPM-V 4.5是面壁智能推出的端側多模態模型,擁有8B參數。模型在圖片、視頻、OCR等多個領域表現卓越,尤其在高刷視頻理解方面取得突破,能處理高刷新率視...
閱讀原文

Waver 1.0

Waver 1.0 是字節跳動推出的新一代視頻生成模型,基于修正流 Transformer 架構,支持文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I)生成,可在單...
閱讀原文

Youtu-agent

Youtu-agent 是騰訊優圖實驗室推出的開源智能體框架,用在構建、運行和評估自主智能體??蚣芑陂_源模型DeepSeek-V3實現領先性能,支持多種模型 API 和工具...
閱讀原文

Wan2.2-S2V

Wan2.2-S2V 是開源的多模態視頻生成模型,僅需一張靜態圖片和一段音頻,能生成電影級數字人視頻,視頻時長可達分鐘級,且支持多種圖片類型和畫幅。
閱讀原文

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image(代號nano banana)是谷歌 AI Studio推出的先進圖像生成與編輯模型。模型能保持角色在不同場景中的一致性,支持通過自然語言進行精準...
閱讀原文

SpatialLM 1.5

SpatialLM 1.5 是群核科技推出的強大的空間語言模型。模型基于大語言模型訓練,能理解自然語言指令,輸出包含空間結構、物體關系和物理參數的空間語言。用戶...
閱讀原文

WhisperLiveKit

WhisperLiveKit 是開源的實時語音識別工具,能將語音實時轉錄為文字,支持說話人識別。工具基于先進的技術如 SimulStreaming 和 WhisperStreaming,提供超低...
閱讀原文

XBai o4

XBai o4是開源的大語言模型,基于“反射生成形式”訓練,結合長CoT強化學習和過程獎勵學習,在復雜推理能力上表現出色,中等模式下已超越OpenAI-o3-mini。

VibeVoice

VibeVoice 是微軟推出的新型文本到語音(TTS)模型,能生成富有表現力、長篇幅、多說話者的對話式音頻,如播客。
閱讀原文

EchoMimicV3

EchoMimicV3是螞蟻集團推出的高效多模態、多任務數字人視頻生成框架??蚣軗碛?3億參數,基于任務混合和模態混合范式,結合新穎的訓練與推理策略,實現快速、...
閱讀原文

SpatialGen

SpatialGen 是群核科技開源的 3D 場景生成模型。模型基于擴散模型架構,支持根據文字描述、參考圖像和 3D 空間布局,生成時空一致的多視角圖像,且能進一步得...
閱讀原文

問小白o4

問小白o4是國內首個并行思考模型,能同時啟動8條思考路徑,自動篩選最優解,提供精準答案。模型融合Long?CoT強化學習與過程獎勵學習,具備深度推理和高質量思...
閱讀原文

FutureX

FutureX是字節跳動、復旦大學、斯坦福大學和普林斯頓大學的研究團隊聯合發布的,專為LLM智能體未來預測任務設計的動態實時評估基準。通過半自動化管道從195個...
閱讀原文

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具備混合推理架構,能自由切換思考模式與非思考模式,思考效率顯著提升。模型在V3的基礎上進行多項升級,上下...
閱讀原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(簡稱SF-LLaVA-1.5)是專為長視頻理解設計的高效視頻大語言模型?;陔p流(SlowFast)機制,平衡處理更多輸入幀與減少每幀令牌數量之間...
閱讀原文