上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升
關鍵字：文本,圖像,騰訊,位置,能力
文章來源：量子位
內容字數：3954字

內容摘要：

白交發自凹非寺量子位 | 公眾號 QbitAICLIP長文本能力被解鎖，圖像檢索任務表現顯著提升！
一些關鍵細節也能被捕捉到。上海交大聯合上海AI實驗室提出新框架Long-CLIP。
△棕色文本為區分兩張圖的關鍵細節Long-CLIP在保持CLIP原始特征空間的基礎上，在圖像生成等下游任務中即插即用，實現長文本細粒度圖像生成——
長文本-圖像檢索提升20%，短文本-圖像檢索提升6%。
解鎖CLIP長文本能力CLIP對齊了視覺與文本模態，擁有強大的zero-shot泛化能力。因此，CLIP被廣泛應用在各種多模態任務中，如圖像分類、文本圖像檢索、圖像生成等。
但CLIP的一大弊病是在于長文本能力的缺失。
首先，由于采用了絕對位置編碼，CLIP的文本輸入長度被限制在了77個token。不僅如此，實驗發現CLIP真正的有效長度甚至不足20個token，遠遠不足以表征細粒度信息。
文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本，CLIP的視覺編碼器也只會提取一張圖片中最主要的成分，而忽略了各種細節。這對跨模態檢索等細粒度任務是十分不利的。
同時，長文本的缺乏也使CLIP采取了類似b

原文鏈接：上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升