COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
AIGC動態(tài)歡迎閱讀
原標(biāo)題:COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
關(guān)鍵字:模型,冗余,方法,實例,開銷
文章來源:機器之心
內(nèi)容字?jǐn)?shù):4690字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部基于 Transformer 結(jié)構(gòu)的視覺語言大模型(VLM)在各種下游的視覺語言任務(wù)上取得了巨大成功,但由于其較長的輸入序列和較多的參數(shù),導(dǎo)致其相應(yīng)的計算開銷地提升,阻礙了在實際環(huán)境中進(jìn)一步部署。為了追求更為高效的推理速度,前人提出了一些針對 VLM 的加速方法,包括剪枝和蒸餾等,但是現(xiàn)有的這些方法大都采用靜態(tài)架構(gòu),其針對不同輸入實例采用同樣的計算圖進(jìn)行推理,忽略了不同實例之間具有不同計算復(fù)雜性的事實:針對復(fù)雜的跨模態(tài)交互實例,自然需要更多計算才能完全理解圖像和相關(guān)問題的復(fù)雜細(xì)節(jié);相反,簡單的實例則可以用更少的計算量解決。這也導(dǎo)致較高加速比下的 VLM 的性能嚴(yán)重下降。
為了解決上述這些問題,哈工大聯(lián)合度小滿推出針對多模態(tài)模型的自適應(yīng)剪枝算法 SmartTrim,論文已被自然語言處理頂級會議 COLING 24 接收。前期探究和研究動機
本文首先針對 VLM 中每一層的 token 表示和 attention head 的冗余情況進(jìn)行分析,如下圖所示。我們有了以下發(fā)現(xiàn):(1)無論是哪種模態(tài)的 token 或者 head,層內(nèi)相似性始終很高,說明模型是存在顯著
原文鏈接:COLING24|自適應(yīng)剪枝讓多模態(tài)大模型加速2-3倍,哈工大等推出SmartTrim
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺