LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)

AIGC動態(tài)歡迎閱讀

原標(biāo)題：LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)
關(guān)鍵字：詞表,知乎,模型,字符,語料
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

今天給大家?guī)碇魼真中的一篇文章，《LLM實踐–Tokenizer訓(xùn)練》。
知乎：https://zhuanlan.zhihu.com/p/739078635
經(jīng)過了數(shù)據(jù)收集、篩選、去重，馬上就可以開始訓(xùn)練實驗了。但是在實驗之前，我們還需要先獲取一個語言模型的基石：分詞器（Tokenizer）。Tokenizer 的作用是對一條文本數(shù)據(jù)進(jìn)行切分、詞表映射，得到這條文本的token序列。
01用開源 Tokenizer 還是自己訓(xùn)練Tokenizer可以自己訓(xùn)練，也可以從目前開源的模型中扒一個來用，用開源Tokenizer有幾個點需要著重關(guān)注：
壓縮率：壓縮率決定了文本向量化后的長度，壓縮率越高，向量后數(shù)據(jù)越短，訓(xùn)練和推理效率越高，但是對訓(xùn)練數(shù)據(jù)的數(shù)量要求也越大，主流的tokenizer對漢字的壓縮率都在1.5-1.6之間，也就是1.5-1.6個漢字劃分為一個token。
token覆蓋率：token覆蓋率不用糾結(jié)細(xì)節(jié)，只需要關(guān)注是否有你的目標(biāo)語種的token，比如llama的tokenizer中文就很少，相應(yīng)地中文上壓縮率就比較低，token向字節(jié)流的退化率比較高，也一定程度的

原文鏈接：LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)