日日新SenseNova V6

日日新SenseNova V6 – 商湯推出的多模態融合模型系列

日日新SenseNova V6

日日新SenseNova V6是商湯科技推出的第六代多模態融合大模型系列，基于6000億參數的多模態MoE架構，能夠原生地融合文本、圖像和視頻信息。該模型在純文本和多模態任務中表現出色，多項性能指標超越了GPT-4.5和Gemini 2.0 Pro等國際主流模型。

日日新SenseNova V6是什么

日日新SenseNova V6是商湯科技推出的最新一代多模態融合大模型系列，采用6000億參數的多模態MoE架構，能夠實現文本、圖像和視頻的無縫融合。該模型在純文本任務及多模態任務中展現了卓越的性能，多個指標均超越了當前領先的模型如GPT-4.5和Gemini 2.0 Pro。

日日新SenseNova V6提供四個不同版本，其中SenseNova V6 Pro具備6200億參數的混合專家架構，支持文本、圖像和視頻的原生融合，對標國際主流模型；SenseNova V6 Reasoner Pro則具備推理能力，能夠協助解決復雜問題；SenseNova V6 Video專注于視頻理解，適合教育和文旅等場景；而SenseNova V6 Omni則是輕量級全模態交互模型，提供實時互動體驗。該模型具備強大的推理、交互能力及長時記憶，能夠對中長視頻進行深入解析，并在實時音視頻互動中準確回答問題，展現情感化的表達。其應用涵蓋教育輔導、具身智能等領域，為機器人賦予大腦、眼睛、耳朵和嘴巴等功能。

日日新SenseNova V6的主要功能

視頻處理與分析：支持對中長視頻進行深入的推理和分析。
實時音視頻交互：能夠精確回答關于視頻內容的問題，如人物關系和情節發展等。
教育輔導：識別手寫內容，幫助孩子們解決數學題，提供一對一的引導式教學。
情感理解與表達：具備高度擬人化的感知、表達和情感理解能力，能夠根據不同的對話內容和場景需求調整語氣和情感。
具身智能：賦予機器人更強的感知與交互能力。

日日新SenseNova V6的技術原理

原生多模態融合訓練技術：將文本、圖像、視頻和音頻等多種信息在模型架構和訓練過程中深度融合，避免傳統方法中增強某一模態導致其他模態能力下降的問題，從而更好地處理復雜場景并捕捉跨模態細節。
多模態長思維鏈合成技術：通過多智能體協作，實現超長思維鏈的生成與驗證，使模型具備長時間和多步驟的深度思考能力，適用于數學推導、科學分析和長文檔理解等場景。
多模態混合增強學習：結合人類偏好的RLHF和基于確定性答案的RFT，平衡模型的邏輯推理能力與情感表達能力，確保在提升推理能力的同時，能自然地表達情感。
長視頻統一表征和動態壓縮：實現跨模態信息的高效對齊與壓縮，將畫面、語音、字幕及時間邏輯統一編碼，形成連貫的時序表征，大幅提升處理效率。