<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        AIGC動態1年前 (2024)發布 量子位
        423 0 0

        上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        AIGC動態歡迎閱讀

        原標題:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升
        關鍵字:文本,圖像,騰訊,位置,能力
        文章來源:量子位
        內容字數:3954字

        內容摘要:


        白交 發自 凹非寺量子位 | 公眾號 QbitAICLIP長文本能力被解鎖,圖像檢索任務表現顯著提升!
        一些關鍵細節也能被捕捉到。上海交大聯合上海AI實驗室提出新框架Long-CLIP。
        △棕色文本為區分兩張圖的關鍵細節Long-CLIP在保持CLIP原始特征空間的基礎上,在圖像生成等下游任務中即插即用,實現長文本細粒度圖像生成——
        長文本-圖像檢索提升20%,短文本-圖像檢索提升6%。
        解鎖CLIP長文本能力CLIP對齊了視覺與文本模態,擁有強大的zero-shot泛化能力。因此,CLIP被廣泛應用在各種多模態任務中,如圖像分類、文本圖像檢索、圖像生成等。
        但CLIP的一大弊病是在于長文本能力的缺失。
        首先,由于采用了絕對位置編碼,CLIP的文本輸入長度被限制在了77個token。不僅如此,實驗發現CLIP真正的有效長度甚至不足20個token,遠遠不足以表征細粒度信息。
        文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本,CLIP的視覺編碼器也只會提取一張圖片中最主要的成分,而忽略了各種細節。這對跨模態檢索等細粒度任務是十分不利的。
        同時,長文本的缺乏也使CLIP采取了類似b


        原文鏈接:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产亚洲精品资源在线26u| 亚洲精品无码久久久久久久 | 久久夜色精品国产噜噜亚洲AV| 亚洲手机中文字幕| 一级女人18片毛片免费视频| 久视频精品免费观看99| 久久久久亚洲AV成人网人人软件 | 亚洲一区二区三区无码影院| 亚洲一级免费视频| 中文字幕久精品免费视频| 日韩免费视频在线观看| 亚洲黄色在线观看网站| 一个人看的www在线免费视频| 亚洲AV无码乱码在线观看性色扶| 国内精品久久久久影院亚洲| 日本xxxx色视频在线观看免费| 亚洲国产成人久久综合碰| 九九九精品视频免费| 亚洲乱亚洲乱妇无码麻豆| 色综合久久精品亚洲国产| 国产a视频精品免费观看| 亚洲人JIZZ日本人| 7x7x7x免费在线观看| 久久久亚洲精品视频| 国产乱妇高清无乱码免费| 免费国产成人午夜私人影视| 亚洲色www永久网站| 日本道免费精品一区二区| 亚洲av日韩av无码黑人| 国产成人无码免费看视频软件| 久久精品国产亚洲AV麻豆网站| 色婷婷7777免费视频在线观看| 亚洲精品无码不卡在线播放HE | 一二三四免费观看在线电影| 在线播放亚洲精品| 日韩视频免费在线| 国产特黄特色的大片观看免费视频| 久久久亚洲欧洲日产国码二区 | 亚洲综合色一区二区三区小说| 成年女人18级毛片毛片免费| 亚洲精品亚洲人成在线播放|