LLaVA-Mini來(lái)了!每張圖像所需視覺(jué)token壓縮至1個(gè),兼顧效率內(nèi)存
高效多模態(tài)大模型。

原標(biāo)題:LLaVA-Mini來(lái)了!每張圖像所需視覺(jué)token壓縮至1個(gè),兼顧效率內(nèi)存
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6071字
高效多模態(tài)大模型LLaVA-Mini:用一個(gè)視覺(jué)Token征服圖像和視頻
本文介紹了中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理團(tuán)隊(duì)提出的高效多模態(tài)大模型LLaVA-Mini。該模型通過(guò)創(chuàng)新性的視覺(jué)Token壓縮技術(shù),將每張圖像所需的視覺(jué)Token數(shù)量壓縮至1個(gè),在保證視覺(jué)理解能力的同時(shí),顯著提升了圖像和視頻理解的效率。
1. 挑戰(zhàn)與突破:高效LMMs的核心問(wèn)題
以GPT-4o為代表的實(shí)時(shí)交互多模態(tài)大模型(LMMs)備受關(guān)注,但現(xiàn)有模型依賴(lài)大量視覺(jué)Token,導(dǎo)致計(jì)算復(fù)雜度高、推理延遲大。LLaVA-Mini正是在此背景下,致力于解決LMMs的效率問(wèn)題,實(shí)現(xiàn)低延遲實(shí)時(shí)交互。
2. 視覺(jué)Token的理解與壓縮策略
研究者通過(guò)分析LLaVA架構(gòu),特別是注意力機(jī)制,發(fā)現(xiàn)視覺(jué)Token主要在前幾層發(fā)揮作用,后續(xù)層主要依賴(lài)融合了視覺(jué)信息的指令Token。基于此,LLaVA-Mini提出了一種基于查詢(xún)的壓縮模塊,通過(guò)可學(xué)習(xí)的壓縮查詢(xún)選擇性提取關(guān)鍵視覺(jué)信息,最終將一張圖像壓縮為一個(gè)視覺(jué)Token。
3. 模態(tài)預(yù)融合模塊:保留視覺(jué)信息的關(guān)鍵
為了避免視覺(jué)信息丟失,LLaVA-Mini在LLM底座前引入模態(tài)預(yù)融合模塊。該模塊預(yù)先將所有視覺(jué)Token的信息融合到文本Token中,確保視覺(jué)理解能力,并將輸入LLM底座的Token數(shù)量從“576個(gè)視覺(jué)Token+N個(gè)文本Token”壓縮至“1個(gè)視覺(jué)Token+N個(gè)模態(tài)融合Token”。
4. 顯著的性能提升與效率優(yōu)勢(shì)
實(shí)驗(yàn)結(jié)果表明,LLaVA-Mini在11個(gè)圖像理解基準(zhǔn)和7個(gè)視頻理解基準(zhǔn)上取得了與現(xiàn)有模型相當(dāng)甚至更好的性能,同時(shí)實(shí)現(xiàn)了顯著的效率提升:計(jì)算負(fù)載減少77%,響應(yīng)延遲低于40毫秒,顯存占用從360MB/圖像降至0.6MB/圖像,支持在24GB GPU上進(jìn)行長(zhǎng)達(dá)3小時(shí)的視頻處理。LLaVA-Mini甚至在長(zhǎng)視頻理解任務(wù)中表現(xiàn)出顯著優(yōu)勢(shì),能夠處理超過(guò)2小時(shí)的視頻。
5. LLaVA-Mini的局限與未來(lái)展望
盡管LLaVA-Mini在效率方面取得了突破性進(jìn)展,但它在處理一些精細(xì)化視覺(jué)任務(wù)(如OCR)時(shí),性能可能會(huì)受到壓縮的影響。不過(guò),模型的靈活性允許用戶(hù)根據(jù)具體場(chǎng)景調(diào)整壓縮后的視覺(jué)Token數(shù)量,在性能和效率之間取得平衡。
6. 總結(jié)
LLaVA-Mini是一個(gè)高效的多模態(tài)大模型,它通過(guò)巧妙的視覺(jué)Token壓縮和模態(tài)預(yù)融合策略,在保證性能的同時(shí)顯著提升了計(jì)算效率和推理速度,為低延遲實(shí)時(shí)交互LMMs的開(kāi)發(fā)提供了新的方向。其在圖像、高分辨率圖像和視頻理解方面的出色表現(xiàn),以及在效率方面的巨大優(yōu)勢(shì),使其成為高效LMM領(lǐng)域的重要貢獻(xiàn)。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)