<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態視覺token壓縮方法(持續更新)

        AIGC動態10個月前發布 智猩猩GenAI
        447 0 0

        導讀作者為葡萄是貓原文來自知乎,地址:https://zhuanlan.zhihu.com/p/8776092026本文只做學術/技術分享,如有侵權,聯系刪文。01簡要為提升MLLM對圖像、視頻的理解能力,最有效的方式就是提升visual token的個數,隨之而來的則是訓練、推理耗時的增加。因此,對視覺token進行壓縮以提取最有用的信息至關重要。下文基于個人理解,進行梳理。已知技術方案概覽:1.線性映射:采用多層MLP進行壓縮,如Qwen2-VL中2.下采樣:采用Pooling(可以是不同的pool采樣方式),如LLaVA-OneVision3.Pixel-Shuffle:用通道換空間,如InternVL1.1及后續系列4.Q-former:新增learned query實現視覺token壓縮,如Flamingo、BLIP25.模型動態壓縮:改造模型或注意力機制實現視覺token采樣,如FocusLLaVA、mPlug-owl36.Training-free:在推理的各個階段通過各種方式實現token壓縮,如MustDrop、FiCoCO其中,線性映射、下采樣方法較易理解,不展開贅述Pixel-Shuffle該方案是用通道換空間,即減少空間增加通道,數據維度變化:[N, W, H, C] -> [N, W*s, H*s, C//(s^2)](當s>1時,則實現上采樣;當s<1時,則實現下采樣)在InternVL1.1,利用此方案,將視覺token從1024壓縮到256個(分辨率448×448,patch_size 14,s=0.5),代碼片段:def pixel_shuffle(self, x, scale_factor=0.5): n, w, h, c = x.size() # N, W, H, C –> N, W, H * scale, C // scale x = x.view(n, w, int(h * scale_factor), int(c / scale_factor)) # N, W, H * scale, C // scale –> N, H * scale, W, C // scale x = x.permute(0, 2, 1, 3).contiguous() # N, H * scale, W, C // scale –> N, H * scale, W * scale, C // (scale ** 2) x = x.view(n, int(h * scale_factor), int(w * scale_factor), int(c / (scale_factor * scale_factor))) if self.ps_version == ‘v1’: warnings.warn(“In ps_version ‘v1’, the height and width have not been swapped back, ” ‘which results in a transposed image.’) else: x = x.permute(0, 2, 1, 3).contiguous() return xQ-Former該類方案是引入可學習的embedding(learned query),和視覺token計算注意力,以實現token壓縮。最早在Flamingo中是Perceiver Resampler,BLIP2中是Q-Former(注意,在視覺token和文本交互時,blip2更簡化直接拼接視覺token和文本token,而flamingo中采用了gated xattn-dense)Flamingo中的Perceiver ResamperBLIP2中的learned queries02模型動態壓縮該方案也是通過改造模型,讓模型在端到端訓練中,自適應抉擇最重要的token,實現視覺token的動態壓縮。(歸類名稱是臨時起的。。應該有更好的代稱)FocusLLaVA1.論文:FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression2.方案:提出vision-guided sampler(下圖b)實現視覺token壓縮(LLM中也提出了text-guided samper,下圖c),其中vision-guided sampler分成兩步:多尺度降采樣:將vit后的全局feature map X再按window切分,對切分后的子特征圖按照不同的max-pool(如4×4,2×2,1×1,類似SPP操作)得到出一組token集合多尺度選擇:引入MoE思想,將不同尺寸的降采樣當做專家模型,對上一步的token集合拉平后計算其和vit后的全局feature map X計算相似度,并保留top的token,即實現token壓縮mPlug-owl31.論文:mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models2.方案:該方案不是直接壓縮token,改造注意力機制為HyperAttnTransformer,視覺和文本共享q矩陣,并各自保留k&v矩陣,實現整個模型參數量降低,提升推理速度Hyper Attention TransformerVLoRA1.論文:Visual Perception by Large Language Model’s Weights2.方案:該方案不直接將視覺token輸入到LLM中,而是通過類似LoRA的方式將Visual token作為參數權重,引入到LLM中VLoRAPerceptual Weights Generator03Training-freeMustDrop1.論文:Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model2.方案:該方案側重在推理時對token進行壓縮,在MLLM推理的各個階段提出相應的壓縮方案Visual-encode stage:計算相鄰token的相似度Prefill stage:dual-attention estimation,先通過global-attention filtering(計算視覺token和所有text token的相似度)過濾出“可能不相關的token集合”,再通過individual-attention filtering(計算視覺token和單個文本token的相似度)過濾出“真正不相關的token集合”Decode stage:output-aware cache策略,在decode時對模型不同層進行不同尺度的剪枝,最后保留最少的token輸出FiCoCO1.論文:Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration2.方案:將token的壓縮方式分解成Filter-Correlate-Compress三個階段,實現training-free的token壓縮框架,并將該框架分別應用于模型的不同部分,即Visual encode階段(即FiCoCo-V)、LLM decode階段(即FiCoCo-L)、visual encode和LLM decode(即FiCoCo-VL),不同部分的實現略有不同。該框架的三個階段具體情況如下:filter階段:解決要丟棄哪些token的問題,通過attention矩陣和cls token計算得到token冗余度,再篩選topKCorrellate階段:解決被丟棄的信息要保留到哪里的問題,通過計算topK token和剩余token的相關性實現Compress階段:解決如何融合token以保留相關信息的問題,通過相關性計算token-wise的壓縮權重實現FiCoCo系列FiCoCo在模型不同部分的偽代碼END點擊下方名片即刻關注我們

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 精品免费久久久久久久| 久久青草免费91线频观看不卡| 免费精品国产自产拍在线观看图片| 亚洲AV无码日韩AV无码导航 | 国内精品久久久久影院亚洲| 四虎最新永久免费视频| 亚洲国产成人综合| 好男人看视频免费2019中文 | 亚洲AV日韩AV永久无码绿巨人 | 久久亚洲国产成人精品性色| 一区二区在线免费观看| 亚洲性无码av在线| 18禁无遮挡无码网站免费| 亚洲av午夜电影在线观看| 亚洲av高清在线观看一区二区| 免费人成再在线观看网站| 曰韩亚洲av人人夜夜澡人人爽| 国产午夜精品理论片免费观看 | 免费国产va视频永久在线观看| 亚洲精品视频免费| 免费91最新地址永久入口| 91亚洲性爱在线视频| 日韩在线免费看网站| 插鸡网站在线播放免费观看| 亚洲影院在线观看| 最近2019中文免费字幕| 色婷婷综合缴情综免费观看| 亚洲一区二区三区日本久久九| 天天摸天天碰成人免费视频| 又粗又长又爽又长黄免费视频 | 国产乱子伦片免费观看中字| 国产特黄一级一片免费| 亚洲国产精品成人久久久| 浮力影院第一页小视频国产在线观看免费| 羞羞视频免费网站含羞草| 亚洲AV无码久久精品蜜桃| 天天操夜夜操免费视频| 两个人日本WWW免费版| 在线观看日本亚洲一区| 国产AⅤ无码专区亚洲AV| 成人免费毛片观看|