上海交大新框架解鎖CLIP長(zhǎng)文本能力,多模態(tài)生成細(xì)節(jié)拿捏,圖像檢索能力顯著提升
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:上海交大新框架解鎖CLIP長(zhǎng)文本能力,多模態(tài)生成細(xì)節(jié)拿捏,圖像檢索能力顯著提升
關(guān)鍵字:文本,圖像,騰訊,位置,能力
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):3954字
內(nèi)容摘要:
白交 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAICLIP長(zhǎng)文本能力被解鎖,圖像檢索任務(wù)表現(xiàn)顯著提升!
一些關(guān)鍵細(xì)節(jié)也能被捕捉到。上海交大聯(lián)合上海AI實(shí)驗(yàn)室提出新框架Long-CLIP。
△棕色文本為區(qū)分兩張圖的關(guān)鍵細(xì)節(jié)Long-CLIP在保持CLIP原始特征空間的基礎(chǔ)上,在圖像生成等下游任務(wù)中即插即用,實(shí)現(xiàn)長(zhǎng)文本細(xì)粒度圖像生成——
長(zhǎng)文本-圖像檢索提升20%,短文本-圖像檢索提升6%。
解鎖CLIP長(zhǎng)文本能力CLIP對(duì)齊了視覺(jué)與文本模態(tài),擁有強(qiáng)大的zero-shot泛化能力。因此,CLIP被廣泛應(yīng)用在各種多模態(tài)任務(wù)中,如圖像分類、文本圖像檢索、圖像生成等。
但CLIP的一大弊病是在于長(zhǎng)文本能力的缺失。
首先,由于采用了絕對(duì)位置編碼,CLIP的文本輸入長(zhǎng)度被限制在了77個(gè)token。不僅如此,實(shí)驗(yàn)發(fā)現(xiàn)CLIP真正的有效長(zhǎng)度甚至不足20個(gè)token,遠(yuǎn)遠(yuǎn)不足以表征細(xì)粒度信息。
文本端的長(zhǎng)文本缺失也限制了視覺(jué)端的能力。由于僅包含短文本,CLIP的視覺(jué)編碼器也只會(huì)提取一張圖片中最主要的成分,而忽略了各種細(xì)節(jié)。這對(duì)跨模態(tài)檢索等細(xì)粒度任務(wù)是十分不利的。
同時(shí),長(zhǎng)文本的缺乏也使CLIP采取了類似b
原文鏈接:上海交大新框架解鎖CLIP長(zhǎng)文本能力,多模態(tài)生成細(xì)節(jié)拿捏,圖像檢索能力顯著提升
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破