元象首個(gè)多模態(tài)大模型 XVERSE-V 開源,刷新權(quán)威大模型榜單,支持任意寬高比輸入
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:元象首個(gè)多模態(tài)大模型 XVERSE-V 開源,刷新權(quán)威大模型榜單,支持任意寬高比輸入
關(guān)鍵字:騰訊,模型,華為,圖像,場(chǎng)景
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):4310字
內(nèi)容摘要:
人類獲取的信息83%來自視覺,圖文多模態(tài)大模型能感知更豐富和精確的真實(shí)世界信息,構(gòu)建更全面的認(rèn)知智能,從而向AGI(通用人工智能)邁出更大步伐。
元象今日發(fā)布多模態(tài)大模型 XVERSE-V ,支持任意寬高比圖像輸入,在主流評(píng)測(cè)中效果領(lǐng)先。該模型全開源,無條件免費(fèi)商用,持續(xù)推動(dòng)海量中小企業(yè)、研究者和開發(fā)者的研發(fā)和應(yīng)用創(chuàng)新。
XVERSE-V 性能優(yōu)異,在多項(xiàng)權(quán)威多模態(tài)評(píng)測(cè)中超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型,在綜合能力測(cè)評(píng)MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
圖. 多模態(tài)大模型綜合評(píng)測(cè)1融合整體和局部的高清圖像表示傳統(tǒng)的多模態(tài)模型的圖像表示只有整體,XVERSE-V 創(chuàng)新性地采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。兼顧全局的概覽信息和局部的細(xì)節(jié)信息,能夠識(shí)別和分析圖像中的細(xì)微特征,看的更清楚,理解的更準(zhǔn)確。注:Concate* 表示按列進(jìn)行拼接
這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域,包括全景圖識(shí)別
原文鏈接:元象首個(gè)多模態(tài)大模型 XVERSE-V 開源,刷新權(quán)威大模型榜單,支持任意寬高比輸入
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。