AIGC動態歡迎閱讀
原標題:LLM實踐系列-數據去重之Simhash&Minhash分析與實現
關鍵字:知乎,向量,詞頻,分詞,數據
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
講座預告11月1日上午10點,南開大學在讀博士李森茂,將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解,歡迎掃名~今天給大家帶來知乎@真中的一篇文章,《LLM實踐–數據去重:Simhash&Minhash 原理分析&代碼實現》
知乎:https://zhuanlan.zhihu.com/p/739101179
數據處理是LLM pretrain的核心環節,去重又是數據處理的重要組成部分,這篇文章就分享一下數據去重的一般做法。我寫東西的主要是想學會什么,而僅僅是了解什么,所以回答和文章大多都會附上代碼,這篇也是一樣。這個系列的文章估計廢話會比較多。
數據去重大致可以分為三個粒度:文檔粒度、段落粒度和句子粒度。
顧名思義,文檔粒度就是以文檔為單位,刪除重復文檔。這種做法最為普遍,主要是為了刪除完全重復或幾乎一致的文檔,這種文檔一般來自于相同文檔的不同源發布轉載、重復爬取等。段落粒度和文檔粒度沒有特別本質的差別,一般適用于一些特殊的源和場景,比如法律相關的文檔大量引述法條這種,可能產生大面積引用的場景,做法和文檔去重也不會差太多,不過要額外關注一下分段方法。句子粒度的去重
原文鏈接:LLM實踐系列-數據去重之Simhash&Minhash分析與實現
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...