AIGC動態歡迎閱讀
原標題:微軟最新研究成果:使用GPT-4合成數據來訓練AI模型,實現SOTA!
關鍵字:模型,數據,報告,任務,文本
文章來源:夕小瑤科技說
內容字數:5852字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年、王二狗文本嵌入是各項NLP任務的基礎,用于將自然語言轉換為向量表示。現有的大部分方法通常采用復雜的多階段訓練流程,先在大規模數據上訓練,再在小規模標注數據上微調。此過程依賴于手動收集數據制作正負樣本對,缺乏任務的多樣性和語言多樣性。
此外,大部分方法采用BERT作為編碼器,如非常經典的Sentence-BERT和SimCSE通過在推理數據集上對BERT進行微調學習文本嵌入。
但現在LLMs技術發展得如火如荼,能否用LLMs來克服現有方法的限制,升級文本嵌入方法呢?
當然可以!
最近,微軟發布了一種新穎的文本嵌入方法,使用專有的LLMs為93種語言中各種文本嵌入任務生成合成數據,并且涉及了多個任務場景。
微軟使用了Mistral-7B對合成數據和標記數據進行混合訓練,**成功登頂Huggingface排行榜,比之前的方法高2%**。
論文標題:Improving Text Embeddings with Large Language Models
論文鏈接:https://arxiv.org/pdf/2401.00368.pdf
模型:https://
原文鏈接:微軟最新研究成果:使用GPT-4合成數據來訓練AI模型,實現SOTA!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...