<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Seed1.5-Embedding

        AI工具4個(gè)月前更新 AI工具集
        28 0 0

        Seed1.5-Embedding – 字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)推出的向量模型

        Seed1.5-Embedding

        Seed1.5-Embedding是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)最新推出的向量模型,基于Seed1.5 (Doubao-1.5-pro)進(jìn)行深度訓(xùn)練。該模型在權(quán)威評(píng)測(cè)榜單MTEB上實(shí)現(xiàn)了中英文的最先進(jìn)(SOTA)效果,并在推理密集型檢索任務(wù)的BRIGHT榜單中表現(xiàn)出色。

        Seed1.5-Embedding是什么

        Seed1.5-Embedding是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)全新發(fā)布的向量模型,經(jīng)過對(duì)Seed1.5 (Doubao-1.5-pro)的進(jìn)一步訓(xùn)練。該模型在MTEB這一權(quán)威評(píng)測(cè)榜單上取得了中英文的SOTA效果,并在BRIGHT榜單的推理密集型檢索任務(wù)中也展現(xiàn)了優(yōu)異的成績(jī)。它采用了Siamese雙塔結(jié)構(gòu),依托Seed1.5預(yù)訓(xùn)練LLM,通過兩階段的訓(xùn)練流程增強(qiáng)了模型的通用表征能力。第一階段使用無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)微調(diào),通過對(duì)比學(xué)習(xí)將生成模型轉(zhuǎn)化為編碼模型;第二階段則結(jié)合有監(jiān)督和合成數(shù)據(jù)進(jìn)行微調(diào),進(jìn)行多任務(wù)優(yōu)化。通過迭代式難負(fù)例挖掘、偽負(fù)例過濾和合成數(shù)據(jù)等策略優(yōu)化數(shù)據(jù)質(zhì)量,顯著提升了模型在檢索任務(wù)中的表現(xiàn)。此外,Seed1.5-Embedding支持多種向量維度選擇,包括2048、1024、512和256。

        Seed1.5-Embedding的主要功能

        • 文本語義編碼:將輸入文本的語義轉(zhuǎn)化為高維空間中的表征向量,使得相關(guān)文本之間的向量相似性更高。這種編碼方式能夠支持檢索、分類、聚類等下游任務(wù),廣泛應(yīng)用于搜索、推薦和內(nèi)容理解等領(lǐng)域。
        • 檢索任務(wù):通過計(jì)算向量相似度,快速從龐大的文檔庫中找到與用戶查詢最相關(guān)的信息。該模型在推理密集型檢索任務(wù)中表現(xiàn)卓越,能夠理解復(fù)雜的查詢與文檔匹配關(guān)系。
        • 多任務(wù)優(yōu)化:支持多種任務(wù)類型,包括分類、聚類、成對(duì)分類、重排、檢索和語義文本相似性(STS)任務(wù),適用各種應(yīng)用場(chǎng)景。
        • 靈活的向量維度支持:支持多種向量維度(2048、1024、512、256),用戶可根據(jù)具體需求選擇合適的維度,即便在較低維度下,模型性能的下降也微乎其微,從而提供靈活的存儲(chǔ)和運(yùn)行效率選擇。
        • 推理能力優(yōu)化:通過構(gòu)造推理密集型檢索數(shù)據(jù),優(yōu)化模型在復(fù)雜查詢和文檔匹配中的推理能力,使其能夠處理更復(fù)雜的語義關(guān)系和邏輯推理任務(wù)。

        Seed1.5-Embedding的技術(shù)原理

        • 模型架構(gòu):Seed1.5-Embedding采用Siamese雙塔向量模型結(jié)構(gòu),查詢與文檔的向量通過余弦相似度計(jì)算匹配得分。模型依托Seed1.5的預(yù)訓(xùn)練LLM,將單向注意力轉(zhuǎn)變?yōu)殡p向,構(gòu)建了小規(guī)模的MoE(專家混合)模型,查詢和文檔的模型參數(shù)共享,從而確保了較高的運(yùn)行效率。
        • 兩階段訓(xùn)練流程
          • 第一階段:利用無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)微調(diào),通過對(duì)比學(xué)習(xí)將單向Attention的生成模型改造為雙向Attention的編碼模型,從而充分建模各種文本匹配模式。
          • 第二階段:結(jié)合有監(jiān)督和合成數(shù)據(jù)進(jìn)行微調(diào),通過混合多種任務(wù)數(shù)據(jù)進(jìn)行多任務(wù)優(yōu)化,讓模型學(xué)習(xí)各個(gè)任務(wù)的最佳表征模式。
        • 數(shù)據(jù)工程策略
          • 負(fù)例挖掘:設(shè)計(jì)迭代式的難負(fù)例挖掘策略,根據(jù)模型自身的偏好挖掘難負(fù)例,以提升模型的細(xì)粒度相關(guān)性區(qū)分能力。
          • 偽負(fù)例過濾:自動(dòng)過濾與正例過于相似的文本,以避免偽負(fù)例對(duì)學(xué)習(xí)的干擾。
          • 合成數(shù)據(jù):構(gòu)造通用場(chǎng)景和推理密集場(chǎng)景的數(shù)據(jù),從而提升模型在復(fù)雜檢索任務(wù)中的表現(xiàn)。

        Seed1.5-Embedding的項(xiàng)目地址

        Seed1.5-Embedding的應(yīng)用場(chǎng)景

        • 信息檢索與語義搜索:Seed1.5-Embedding能夠?qū)⑽臋n或網(wǎng)頁向量化,支持語義級(jí)別的搜索,顯著提升召回率和精準(zhǔn)度。這在問答系統(tǒng)(QA)、企業(yè)內(nèi)部文檔檢索、客戶服務(wù)等應(yīng)用場(chǎng)景中,能夠更準(zhǔn)確地理解用戶查詢意圖,快速定位相關(guān)文檔。
        • 文本聚類與話題識(shí)別:利用文本向量,Seed1.5-Embedding可以對(duì)大量文檔進(jìn)行聚類,自動(dòng)識(shí)別出不同的主題和分類信息。
        • 推薦系統(tǒng):在推薦系統(tǒng)中,該模型能夠?qū)⒂脩粼u(píng)論、產(chǎn)品描述等文本信息向量化,通過計(jì)算相似度,實(shí)現(xiàn)對(duì)相似商品和用戶的檢索。
        • 文本分類與情感分析:Seed1.5-Embedding能夠?qū)?a class="external" href="http://m.futurefh.com/tag/382722.html" title="查看與 文本生成 相關(guān)的文章" target="_blank">文本生成向量,再輸入下游分類模型,提升文本分類、情感分析和立場(chǎng)分析等任務(wù)的性能。與傳統(tǒng)的TF-IDF特征相比,生成的向量能夠更準(zhǔn)確地表達(dá)文本的含義和上下文關(guān)系。
        • 復(fù)雜查詢理解與推理:模型在推理密集型檢索任務(wù)上表現(xiàn)卓越,能夠深入理解復(fù)雜查詢與文檔之間的深層匹配關(guān)系。在生物學(xué)、地球科學(xué)、編程等領(lǐng)域的復(fù)雜搜索任務(wù)中,Seed1.5-Embedding能夠提供更為精準(zhǔn)的檢索結(jié)果。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲综合色丁香婷婷六月图片| 亚洲精品国产美女久久久| 亚洲国产成人久久| 99热免费在线观看| 亚洲伊人久久大香线蕉苏妲己| 免费91麻豆精品国产自产在线观看| 亚洲日本在线观看视频| 九九久久国产精品免费热6| 亚洲精品无码激情AV| 国产福利免费视频| 亚洲Av无码精品色午夜| 成全高清在线观看免费| 亚洲精品国产成人片| 国产啪精品视频网站免费尤物| 久久99国产亚洲高清观看首页| 暖暖免费日本在线中文| 亚洲黄色免费网站| 久久久久国产精品免费免费搜索| 在线a亚洲老鸭窝天堂av高清| 日韩一级视频免费观看| 中文字幕精品亚洲无线码一区| 精品亚洲永久免费精品| 亚洲沟沟美女亚洲沟沟| 日韩免费观看视频| 国产精品福利在线观看免费不卡| 亚洲国产精品lv| 中文字幕影片免费在线观看| 色视频在线观看免费| 久久久久亚洲精品无码系列| 国国内清清草原免费视频99 | 国产精品免费久久久久久久久| 亚洲人成网7777777国产| 18女人腿打开无遮掩免费| 亚洲码和欧洲码一码二码三码| 亚洲五月午夜免费在线视频| 99热在线免费观看| 一区二区三区精品高清视频免费在线播放| 久久亚洲精品视频| 韩国18福利视频免费观看| 国产无遮挡又黄又爽免费网站| 免费a级毛片大学生免费观看|