AI項目和框架
MiniCPM-V 4.5
MiniCPM-V 4.5是面壁智能推出的端側多模態模型,擁有8B參數。模型在圖片、視頻、OCR等多個領域表現卓越,尤其在高刷視頻理解方面取得突破,能處理高刷新率視...
Youtu-agent
Youtu-agent 是騰訊優圖實驗室推出的開源智能體框架,用在構建、運行和評估自主智能體??蚣芑陂_源模型DeepSeek-V3實現領先性能,支持多種模型 API 和工具...
Gemini 2.5 Flash Image
Gemini 2.5 Flash Image(代號nano banana)是谷歌 AI Studio推出的先進圖像生成與編輯模型。模型能保持角色在不同場景中的一致性,支持通過自然語言進行精準...
SpatialLM 1.5
SpatialLM 1.5 是群核科技推出的強大的空間語言模型。模型基于大語言模型訓練,能理解自然語言指令,輸出包含空間結構、物體關系和物理參數的空間語言。用戶...
WhisperLiveKit
WhisperLiveKit 是開源的實時語音識別工具,能將語音實時轉錄為文字,支持說話人識別。工具基于先進的技術如 SimulStreaming 和 WhisperStreaming,提供超低...
XBai o4
XBai o4是開源的大語言模型,基于“反射生成形式”訓練,結合長CoT強化學習和過程獎勵學習,在復雜推理能力上表現出色,中等模式下已超越OpenAI-o3-mini。
EchoMimicV3
EchoMimicV3是螞蟻集團推出的高效多模態、多任務數字人視頻生成框架??蚣軗碛?3億參數,基于任務混合和模態混合范式,結合新穎的訓練與推理策略,實現快速、...
SpatialGen
SpatialGen 是群核科技開源的 3D 場景生成模型。模型基于擴散模型架構,支持根據文字描述、參考圖像和 3D 空間布局,生成時空一致的多視角圖像,且能進一步得...
DeepSeek V3.1
DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具備混合推理架構,能自由切換思考模式與非思考模式,思考效率顯著提升。模型在V3的基礎上進行多項升級,上下...
SlowFast-LLaVA-1.5
SlowFast-LLaVA-1.5(簡稱SF-LLaVA-1.5)是專為長視頻理解設計的高效視頻大語言模型?;陔p流(SlowFast)機制,平衡處理更多輸入幀與減少每幀令牌數量之間...