字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
AIGC動態(tài)歡迎閱讀
原標(biāo)題:字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
關(guān)鍵字:模型,字節(jié)跳動,目標(biāo),數(shù)據(jù),圖像
文章來源:量子位
內(nèi)容字?jǐn)?shù):5403字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI多模態(tài)大模型爆發(fā),準(zhǔn)備好進(jìn)入圖像編輯、自動駕駛和機(jī)器人技術(shù)等細(xì)粒度任務(wù)中實際應(yīng)用了嗎?
目前大多數(shù)模型的能力還是局限于生成對整體圖像或特定區(qū)域的文本描述,在像素級理解方面的能力(例如物體分割)相對有限。
針對這個問題,一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令(例如,“請分割出圖片中富含維生素C的水果”)。
然而,市面上的方法都存在兩個主要缺點:
1)無法處理涉及多個目標(biāo)對象的任務(wù),而這在現(xiàn)實世界場景中是不可或缺的;
2)依賴于像SAM這樣的預(yù)訓(xùn)練圖像分割模型,而SAM的一次前向傳播需要的計算量已經(jīng)足夠 Llama-7B產(chǎn)生500多個token了。
為了解決此問題,字節(jié)跳動智能創(chuàng)作團(tuán)隊聯(lián)合北京交通大學(xué)、北京科技大學(xué)的研究人員提出了首個無需依賴SAM的高效像素級推理大模型PixelLM。
在具體介紹它之前,先來體驗幾組PixelLM實際分割的效果:
相比之前的工作,PixelLM的優(yōu)勢在于:
能夠熟練處理任意數(shù)量的開放域目標(biāo)和多樣化的復(fù)雜推理分割任務(wù)。
避免了額外的、成本高昂的分割模型,提升了效率和對不同應(yīng)用的遷移能力。
進(jìn)一步
原文鏈接:字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
