VLM多模態(tài)大模型的視覺編碼策略
為清晰理解眾多VLM對(duì)視覺輸入的處理方式,整理了幾篇代表性的工作。
原標(biāo)題:VLM多模態(tài)大模型的視覺編碼策略
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2135字
AI多模態(tài)視覺語言模型(VLM)在自動(dòng)駕駛領(lǐng)域的應(yīng)用
本文首先介紹了即將在北京舉辦的第四屆全球自動(dòng)駕駛峰會(huì),峰會(huì)將涵蓋自動(dòng)駕駛的多個(gè)前沿領(lǐng)域,包括視覺語言模型等技術(shù)研討會(huì)。隨后,文章重點(diǎn)關(guān)注了視覺語言模型(VLM)在圖像處理方面的最新進(jìn)展,并對(duì)幾篇代表性論文進(jìn)行了總結(jié)和分析。
1. 視覺語言模型(VLM)概述
視覺語言模型 (VLM) 旨在融合視覺和語言信息,實(shí)現(xiàn)更高級(jí)別的多模態(tài)理解和生成能力。其核心在于高效的視覺編碼器,負(fù)責(zé)提取圖像中不同尺寸的視覺特征。本文著重分析了不同VLM在視覺編碼器設(shè)計(jì)上的差異。
2. 不同VLM視覺編碼器的比較
文章對(duì)六種代表性VLM的視覺編碼器進(jìn)行了比較,總結(jié)如下:
- InternVL: 使用大型視覺基礎(chǔ)模型InternViT-6B (基于原始ViT架構(gòu)),并通過一個(gè)8B的LLM進(jìn)行微調(diào)。
- LLaVA-OneVision: 采用AnyRes技術(shù),支持任意尺寸高分辨率圖像處理。對(duì)單圖進(jìn)行網(wǎng)格裁剪處理,多圖或視頻則逐圖處理。實(shí)驗(yàn)表明,提高分辨率比增加token數(shù)量更有效。
- Long Context Transfer from Language to Vision: 提出UniRes技術(shù),相比AnyRes,去除了全圖縮略圖,對(duì)每個(gè)網(wǎng)格進(jìn)行2×2池化。
- Pixtral: 隨機(jī)初始化訓(xùn)練Pixtral-Vit,支持各種分辨率,并加入行結(jié)束標(biāo)記token和門控機(jī)制。利用相對(duì)旋轉(zhuǎn)位置編碼(RoPE-2D)處理不同尺寸圖像。
- Qwen2-VL: 類似Pixtral,采用2D-RoPE,并提出M-RoPE統(tǒng)一編碼圖像、視頻和文本位置信息。
- Idefics2: 使用NaVit視覺編碼器,支持動(dòng)態(tài)分辨率,無需圖像分割,通過將不同圖像序列打包成一個(gè)長(zhǎng)序列,并限制自注意力機(jī)制在當(dāng)前圖像序列內(nèi)應(yīng)用來處理不同尺寸的圖像。
3. 視覺編碼器技術(shù)的演進(jìn)趨勢(shì)
從上述VLM的視覺編碼器設(shè)計(jì)可以看出,研究者們不斷探索更高效、更靈活的方案,以應(yīng)對(duì)不同分辨率、不同類型(單圖、多圖、視頻)的視覺輸入。 AnyRes和UniRes等技術(shù)旨在高效處理高分辨率圖像,而RoPE-2D和M-RoPE等位置編碼技術(shù)則提升了模型對(duì)不同尺寸圖像的適應(yīng)性。動(dòng)態(tài)分辨率處理能力也成為一個(gè)重要的發(fā)展方向。
4. VLM在自動(dòng)駕駛中的應(yīng)用前景
VLM技術(shù)在自動(dòng)駕駛領(lǐng)域具有巨大的應(yīng)用潛力。通過對(duì)道路場(chǎng)景圖像和文本信息的理解,VLM可以輔助自動(dòng)駕駛系統(tǒng)進(jìn)行更準(zhǔn)確的環(huán)境感知、決策規(guī)劃和人機(jī)交互。例如,VLM可以用于理解交通標(biāo)志、路牌等信息,以及對(duì)復(fù)雜路況進(jìn)行語義理解,從而提升自動(dòng)駕駛系統(tǒng)的安全性與可靠性。
總而言之,VLM技術(shù)的快速發(fā)展為自動(dòng)駕駛系統(tǒng)帶來了新的機(jī)遇,其在視覺感知、決策規(guī)劃等方面的應(yīng)用值得期待。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。