Seed1.5-Embedding – 字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)推出的向量模型
Seed1.5-Embedding是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)最新推出的向量模型,基于Seed1.5 (Doubao-1.5-pro)進(jìn)行深度訓(xùn)練。該模型在權(quán)威評(píng)測(cè)榜單MTEB上實(shí)現(xiàn)了中英文的最先進(jìn)(SOTA)效果,并在推理密集型檢索任務(wù)的BRIGHT榜單中表現(xiàn)出色。
Seed1.5-Embedding是什么
Seed1.5-Embedding是字節(jié)跳動(dòng)Seed團(tuán)隊(duì)全新發(fā)布的向量模型,經(jīng)過對(duì)Seed1.5 (Doubao-1.5-pro)的進(jìn)一步訓(xùn)練。該模型在MTEB這一權(quán)威評(píng)測(cè)榜單上取得了中英文的SOTA效果,并在BRIGHT榜單的推理密集型檢索任務(wù)中也展現(xiàn)了優(yōu)異的成績(jī)。它采用了Siamese雙塔結(jié)構(gòu),依托Seed1.5預(yù)訓(xùn)練LLM,通過兩階段的訓(xùn)練流程增強(qiáng)了模型的通用表征能力。第一階段使用無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)微調(diào),通過對(duì)比學(xué)習(xí)將生成模型轉(zhuǎn)化為編碼模型;第二階段則結(jié)合有監(jiān)督和合成數(shù)據(jù)進(jìn)行微調(diào),進(jìn)行多任務(wù)優(yōu)化。通過迭代式難負(fù)例挖掘、偽負(fù)例過濾和合成數(shù)據(jù)等策略優(yōu)化數(shù)據(jù)質(zhì)量,顯著提升了模型在檢索任務(wù)中的表現(xiàn)。此外,Seed1.5-Embedding支持多種向量維度選擇,包括2048、1024、512和256。
Seed1.5-Embedding的主要功能
- 文本語義編碼:將輸入文本的語義轉(zhuǎn)化為高維空間中的表征向量,使得相關(guān)文本之間的向量相似性更高。這種編碼方式能夠支持檢索、分類、聚類等下游任務(wù),廣泛應(yīng)用于搜索、推薦和內(nèi)容理解等領(lǐng)域。
- 檢索任務(wù):通過計(jì)算向量相似度,快速從龐大的文檔庫中找到與用戶查詢最相關(guān)的信息。該模型在推理密集型檢索任務(wù)中表現(xiàn)卓越,能夠理解復(fù)雜的查詢與文檔匹配關(guān)系。
- 多任務(wù)優(yōu)化:支持多種任務(wù)類型,包括分類、聚類、成對(duì)分類、重排、檢索和語義文本相似性(STS)任務(wù),適用各種應(yīng)用場(chǎng)景。
- 靈活的向量維度支持:支持多種向量維度(2048、1024、512、256),用戶可根據(jù)具體需求選擇合適的維度,即便在較低維度下,模型性能的下降也微乎其微,從而提供靈活的存儲(chǔ)和運(yùn)行效率選擇。
- 推理能力優(yōu)化:通過構(gòu)造推理密集型檢索數(shù)據(jù),優(yōu)化模型在復(fù)雜查詢和文檔匹配中的推理能力,使其能夠處理更復(fù)雜的語義關(guān)系和邏輯推理任務(wù)。
Seed1.5-Embedding的技術(shù)原理
- 模型架構(gòu):Seed1.5-Embedding采用Siamese雙塔向量模型結(jié)構(gòu),查詢與文檔的向量通過余弦相似度計(jì)算匹配得分。模型依托Seed1.5的預(yù)訓(xùn)練LLM,將單向注意力轉(zhuǎn)變?yōu)殡p向,構(gòu)建了小規(guī)模的MoE(專家混合)模型,查詢和文檔的模型參數(shù)共享,從而確保了較高的運(yùn)行效率。
- 兩階段訓(xùn)練流程
- 第一階段:利用無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)微調(diào),通過對(duì)比學(xué)習(xí)將單向Attention的生成模型改造為雙向Attention的編碼模型,從而充分建模各種文本匹配模式。
- 第二階段:結(jié)合有監(jiān)督和合成數(shù)據(jù)進(jìn)行微調(diào),通過混合多種任務(wù)數(shù)據(jù)進(jìn)行多任務(wù)優(yōu)化,讓模型學(xué)習(xí)各個(gè)任務(wù)的最佳表征模式。
- 數(shù)據(jù)工程策略
- 負(fù)例挖掘:設(shè)計(jì)迭代式的難負(fù)例挖掘策略,根據(jù)模型自身的偏好挖掘難負(fù)例,以提升模型的細(xì)粒度相關(guān)性區(qū)分能力。
- 偽負(fù)例過濾:自動(dòng)過濾與正例過于相似的文本,以避免偽負(fù)例對(duì)學(xué)習(xí)的干擾。
- 合成數(shù)據(jù):構(gòu)造通用場(chǎng)景和推理密集場(chǎng)景的數(shù)據(jù),從而提升模型在復(fù)雜檢索任務(wù)中的表現(xiàn)。
Seed1.5-Embedding的項(xiàng)目地址
- HuggingFace模型庫:https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding
Seed1.5-Embedding的應(yīng)用場(chǎng)景
- 信息檢索與語義搜索:Seed1.5-Embedding能夠?qū)⑽臋n或網(wǎng)頁向量化,支持語義級(jí)別的搜索,顯著提升召回率和精準(zhǔn)度。這在問答系統(tǒng)(QA)、企業(yè)內(nèi)部文檔檢索、客戶服務(wù)等應(yīng)用場(chǎng)景中,能夠更準(zhǔn)確地理解用戶查詢意圖,快速定位相關(guān)文檔。
- 文本聚類與話題識(shí)別:利用文本向量,Seed1.5-Embedding可以對(duì)大量文檔進(jìn)行聚類,自動(dòng)識(shí)別出不同的主題和分類信息。
- 推薦系統(tǒng):在推薦系統(tǒng)中,該模型能夠?qū)⒂脩粼u(píng)論、產(chǎn)品描述等文本信息向量化,通過計(jì)算相似度,實(shí)現(xiàn)對(duì)相似商品和用戶的檢索。
- 文本分類與情感分析:Seed1.5-Embedding能夠?qū)?a class="external" href="http://m.futurefh.com/tag/382722.html" title="查看與 文本生成 相關(guān)的文章" target="_blank">文本生成向量,再輸入下游分類模型,提升文本分類、情感分析和立場(chǎng)分析等任務(wù)的性能。與傳統(tǒng)的TF-IDF特征相比,生成的向量能夠更準(zhǔn)確地表達(dá)文本的含義和上下文關(guān)系。
- 復(fù)雜查詢理解與推理:模型在推理密集型檢索任務(wù)上表現(xiàn)卓越,能夠深入理解復(fù)雜查詢與文檔之間的深層匹配關(guān)系。在生物學(xué)、地球科學(xué)、編程等領(lǐng)域的復(fù)雜搜索任務(wù)中,Seed1.5-Embedding能夠提供更為精準(zhǔn)的檢索結(jié)果。