InternVL3.5

InternVL3.5 – 上海AI Lab開(kāi)源的多模態(tài)大模型

InternVL3.5：書(shū)生·萬(wàn)象3.5，引領(lǐng)開(kāi)源多模態(tài)大模型新紀(jì)元

InternVL3.5（書(shū)生·萬(wàn)象3.5）是由上海人工智能實(shí)驗(yàn)室推出的性開(kāi)源多模態(tài)大模型。該模型在通用能力、推理效能以及部署效率上實(shí)現(xiàn)了全方位的飛躍，提供從10億到2410億參數(shù)的九種規(guī)格，滿足不同算力需求。其獨(dú)特之處在于，InternVL3.5是首個(gè)整合GPT-OSS語(yǔ)言模型基座的開(kāi)源多模態(tài)大模型，并引入了稠密模型與專(zhuān)家混合模型（MoE）架構(gòu)。通過(guò)創(chuàng)新的級(jí)聯(lián)式強(qiáng)化學(xué)習(xí)（Cascade RL）框架，以及“離線預(yù)熱-在線精調(diào)”的兩階段優(yōu)化流程，InternVL3.5在多學(xué)科推理任務(wù)上表現(xiàn)卓越，旗艦?zāi)Ｐ虸nternVL3.5-241B-A28B在MMMU基準(zhǔn)測(cè)試中以77.7分拔得開(kāi)源模型頭籌，超越GPT-5。同時(shí)，動(dòng)態(tài)視覺(jué)分辨率路由（ViR）和解耦部署框架（DvD）的引入，顯著提升了模型在高分辨率圖像處理時(shí)的響應(yīng)速度和吞吐量，例如38B模型的吞吐量提升高達(dá)4.05倍。

核心亮點(diǎn)與功能概覽

InternVL3.5在多模態(tài)感知、推理、文本處理、GUI智能體、具身空間推理以及矢量圖形處理等多個(gè)維度均展現(xiàn)出領(lǐng)先實(shí)力：

卓越的多模態(tài)感知能力：在圖像、視頻問(wèn)答等任務(wù)中表現(xiàn)搶眼，241B-A28B模型以74.1的平均得分，與GPT-5（74.0）不相上下，領(lǐng)跑開(kāi)源界。
強(qiáng)大的多模態(tài)推理能力：在MMMU基準(zhǔn)測(cè)試中，得分提升超過(guò)5個(gè)百分點(diǎn)，達(dá)到77.7分，確立了其在開(kāi)源模型中的領(lǐng)先地位。
出色的文本處理能力：在AIME、GPQA、IFEval等一系列基準(zhǔn)測(cè)試中，模型平均得分高達(dá)85.3，展現(xiàn)了其在復(fù)雜文本理解與生成方面的優(yōu)勢(shì)。
進(jìn)化的GUI智能體：顯著增強(qiáng)了跨平臺(tái)自動(dòng)化操作能力，在ScreenSpot GUI定位任務(wù)中以92.9分遙遙領(lǐng)先。
精深的具身空間推理：擁有更強(qiáng)的泛化能力，能夠適應(yīng)全新、復(fù)雜的具身場(chǎng)景，并支持可泛化的長(zhǎng)程物體抓取。
高效的矢量圖形處理：在SGP-Bench上刷新了70.7分的開(kāi)源記錄，為網(wǎng)頁(yè)圖形生成和工程圖紙解析等專(zhuān)業(yè)領(lǐng)域提供了強(qiáng)大支持。

技術(shù)基石：創(chuàng)新驅(qū)動(dòng)的底層架構(gòu)

InternVL3.5的強(qiáng)大性能源于其多項(xiàng)創(chuàng)新技術(shù)：

級(jí)聯(lián)式強(qiáng)化學(xué)習(xí)（Cascade RL）：通過(guò)“離線預(yù)熱-在線精調(diào)”的精巧設(shè)計(jì)，利用混合偏好優(yōu)化（MPO）和GSPO算法，實(shí)現(xiàn)推理能力的快速提升和訓(xùn)練的穩(wěn)定性。
動(dòng)態(tài)視覺(jué)分辨率路由（ViR）：智能地為圖像的不同區(qū)域分配不同壓縮率，確保關(guān)鍵信息的高分辨率呈現(xiàn)，從而在加速推理的同時(shí)，最大程度地保留模型性能。
解耦部署框架（DvD）：通過(guò)將視覺(jué)編碼器與語(yǔ)言模型分離部署，并結(jié)合BF16精度特征傳輸與異步流水線技術(shù)，實(shí)現(xiàn)了視覺(jué)與語(yǔ)言處理的并行化，大幅提升了整體吞吐量。
多樣化的模型尺寸與架構(gòu)：提供從10億到2410億參數(shù)的九種規(guī)格，支持稠密模型和專(zhuān)家混合模型（MoE），并率先集成GPT-OSS語(yǔ)言模型基座，滿足多樣化的應(yīng)用需求。
多模態(tài)協(xié)同推理機(jī)制：通過(guò)深度融合視覺(jué)與語(yǔ)言等多種模態(tài)信息，顯著增強(qiáng)了模型處理復(fù)雜任務(wù)的能力，推動(dòng)了多模態(tài)技術(shù)從“理解”到“行動(dòng)”的轉(zhuǎn)變。

項(xiàng)目資源與在線體驗(yàn)

您可以通過(guò)以下鏈接深入了解InternVL3.5的更多信息并進(jìn)行體驗(yàn)：

Github倉(cāng)庫(kù)：https://github.com/OpenGVLab/InternVL
HuggingFace模型：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
技術(shù)報(bào)告：https://huggingface.co/papers/2508.18265
在線體驗(yàn)：通過(guò)書(shū)生大模型平臺(tái)進(jìn)行嘗試。

廣泛的應(yīng)用場(chǎng)景

InternVL3.5憑借其強(qiáng)大的多模態(tài)能力，在多個(gè)領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景：

賦能辦公自動(dòng)化：通過(guò)GUI智能體，實(shí)現(xiàn)跨平臺(tái)辦公流程的自動(dòng)化，如數(shù)據(jù)錄入、文檔排版、郵件處理等，極大地提升工作效率。
驅(qū)動(dòng)智能家居：利用具身空間推理能力，協(xié)助機(jī)器人進(jìn)行家庭環(huán)境中的物品定位、路徑規(guī)劃和物理交互，例如優(yōu)化智能清潔機(jī)器人的工作路徑。
革新教育輔導(dǎo)：結(jié)合多模態(tài)推理與文本能力，為學(xué)生提供個(gè)性化、智能化的學(xué)習(xí)支持，解答復(fù)雜的學(xué)科問(wèn)題，提升學(xué)習(xí)體驗(yàn)。
加速內(nèi)容創(chuàng)作：利用多模態(tài)感知能力，自動(dòng)生成圖像描述、視頻字幕等內(nèi)容，助力內(nèi)容創(chuàng)作者提升效率和創(chuàng)意表現(xiàn)力。
優(yōu)化網(wǎng)頁(yè)設(shè)計(jì)與圖形生成：借助矢量圖形處理能力，輕松生成或編輯SVG矢量圖形，為網(wǎng)頁(yè)設(shè)計(jì)、圖標(biāo)制作等提供高效、個(gè)性化的解決方案。

閱讀原文

# AI工具 # AI項(xiàng)目和框架 # 圖像內(nèi)容識(shí)別 # 圖像檢索 # 多模態(tài)理解 # 文本生成描述 # 視覺(jué)問(wèn)答

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

InternVL3.5

InternVL3.5 – 上海AI Lab開(kāi)源的多模態(tài)大模型

InternVL3.5：書(shū)生·萬(wàn)象3.5，引領(lǐng)開(kāi)源多模態(tài)大模型新紀(jì)元

核心亮點(diǎn)與功能概覽

技術(shù)基石：創(chuàng)新驅(qū)動(dòng)的底層架構(gòu)

項(xiàng)目資源與在線體驗(yàn)

廣泛的應(yīng)用場(chǎng)景

MAI-Voice-1

MAI-1-preview

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？