<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        VLM多模態(tài)大模型的視覺編碼策略

        AIGC動(dòng)態(tài)8個(gè)月前發(fā)布 智猩猩GenAI
        589 0 0

        為清晰理解眾多VLM對(duì)視覺輸入的處理方式,整理了幾篇代表性的工作。

        VLM多模態(tài)大模型的視覺編碼策略

        原標(biāo)題:VLM多模態(tài)大模型的視覺編碼策略
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):2135字

        AI多模態(tài)視覺語言模型(VLM)在自動(dòng)駕駛領(lǐng)域的應(yīng)用

        本文首先介紹了即將在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛的多個(gè)前沿領(lǐng)域,包括視覺語言模型等技術(shù)研討會(huì)。隨后,文章重點(diǎn)關(guān)注了視覺語言模型(VLM)在圖像處理方面的最新進(jìn)展,并對(duì)幾篇代表性論文進(jìn)行了總結(jié)和分析。

        1. 視覺語言模型(VLM)概述

        視覺語言模型 (VLM) 旨在融合視覺和語言信息,實(shí)現(xiàn)更高級(jí)別的多模態(tài)理解和生成能力。其核心在于高效的視覺編碼器,負(fù)責(zé)提取圖像中不同尺寸的視覺特征。本文著重分析了不同VLM在視覺編碼器設(shè)計(jì)上的差異。

        2. 不同VLM視覺編碼器的比較

        文章對(duì)六種代表性VLM的視覺編碼器進(jìn)行了比較,總結(jié)如下:

        1. InternVL: 使用大型視覺基礎(chǔ)模型InternViT-6B (基于原始ViT架構(gòu)),并通過一個(gè)8B的LLM進(jìn)行微調(diào)。
        2. LLaVA-OneVision: 采用AnyRes技術(shù),支持任意尺寸高分辨率圖像處理。對(duì)單圖進(jìn)行網(wǎng)格裁剪處理,多圖或視頻則逐圖處理。實(shí)驗(yàn)表明,提高分辨率比增加token數(shù)量更有效。
        3. Long Context Transfer from Language to Vision: 提出UniRes技術(shù),相比AnyRes,去除了全圖縮略圖,對(duì)每個(gè)網(wǎng)格進(jìn)行2×2池化。
        4. Pixtral: 隨機(jī)初始化訓(xùn)練Pixtral-Vit,支持各種分辨率,并加入行結(jié)束標(biāo)記token和門控機(jī)制。利用相對(duì)旋轉(zhuǎn)位置編碼(RoPE-2D)處理不同尺寸圖像。
        5. Qwen2-VL: 類似Pixtral,采用2D-RoPE,并提出M-RoPE統(tǒng)一編碼圖像、視頻和文本位置信息。
        6. Idefics2: 使用NaVit視覺編碼器,支持動(dòng)態(tài)分辨率,無需圖像分割,通過將不同圖像序列打包成一個(gè)長(zhǎng)序列,并限制自注意力機(jī)制在當(dāng)前圖像序列內(nèi)應(yīng)用來處理不同尺寸的圖像。

        3. 視覺編碼器技術(shù)的演進(jìn)趨勢(shì)

        從上述VLM的視覺編碼器設(shè)計(jì)可以看出,研究者們不斷探索更高效、更靈活的方案,以應(yīng)對(duì)不同分辨率、不同類型(單圖、多圖、視頻)的視覺輸入。 AnyRes和UniRes等技術(shù)旨在高效處理高分辨率圖像,而RoPE-2D和M-RoPE等位置編碼技術(shù)則提升了模型對(duì)不同尺寸圖像的適應(yīng)性。動(dòng)態(tài)分辨率處理能力也成為一個(gè)重要的發(fā)展方向。

        4. VLM在自動(dòng)駕駛中的應(yīng)用前景

        VLM技術(shù)在自動(dòng)駕駛領(lǐng)域具有巨大的應(yīng)用潛力。通過對(duì)道路場(chǎng)景圖像和文本信息的理解,VLM可以輔助自動(dòng)駕駛系統(tǒng)進(jìn)行更準(zhǔn)確的環(huán)境感知、決策規(guī)劃和人機(jī)交互。例如,VLM可以用于理解交通標(biāo)志、路牌等信息,以及對(duì)復(fù)雜路況進(jìn)行語義理解,從而提升自動(dòng)駕駛系統(tǒng)的安全性與可靠性。

        總而言之,VLM技術(shù)的快速發(fā)展為自動(dòng)駕駛系統(tǒng)帶來了新的機(jī)遇,其在視覺感知、決策規(guī)劃等方面的應(yīng)用值得期待。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲国产精品无码久久一线 | 久香草视频在线观看免费| 亚洲国产精品无码成人片久久| 国产成人精品日本亚洲语音| 免费看少妇作爱视频| 亚洲欧洲无码一区二区三区| 免费看大美女大黄大色| 亚洲成a∧人片在线观看无码| 超pen个人视频国产免费观看| 亚洲乱码无人区卡1卡2卡3| 免费无码又爽又刺激高潮| 国产偷国产偷亚洲清高APP| 成人亚洲综合天堂| 国产精品内射视频免费| 亚洲国产精华液网站w| 91精品成人免费国产片| 中国亚洲呦女专区| 国产麻豆免费观看91| 无码AV动漫精品一区二区免费| 亚洲色偷偷狠狠综合网| 黄色网址在线免费| 亚洲福利精品电影在线观看| 久久精品无码专区免费| 亚洲一区综合在线播放| 女性自慰aⅴ片高清免费| 污污视频免费观看网站| 亚洲成人中文字幕| 成年女人18级毛片毛片免费观看| 亚洲成AV人片在线观看无| 最近中文字幕mv免费高清在线| 亚洲永久在线观看| 久久影视综合亚洲| 每天更新的免费av片在线观看| 亚洲精品天堂成人片AV在线播放| 国产偷窥女洗浴在线观看亚洲| 污视频在线观看免费| 久久久亚洲精华液精华液精华液| 国产亚洲精品国看不卡| 美女视频黄a视频全免费| 男女作爱免费网站| 亚洲大香伊人蕉在人依线|