LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)
關(guān)鍵字:詞表,知乎,模型,字符,語料
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
今天給大家?guī)碇魼真中的一篇文章,《LLM實踐–Tokenizer訓(xùn)練》。
知乎:https://zhuanlan.zhihu.com/p/739078635
經(jīng)過了數(shù)據(jù)收集、篩選、去重,馬上就可以開始訓(xùn)練實驗了。但是在實驗之前,我們還需要先獲取一個語言模型的基石:分詞器(Tokenizer)。Tokenizer 的作用是對一條文本數(shù)據(jù)進(jìn)行切分、詞表映射,得到這條文本的token序列。
01用開源 Tokenizer 還是自己訓(xùn)練Tokenizer可以自己訓(xùn)練,也可以從目前開源的模型中扒一個來用,用開源Tokenizer有幾個點需要著重關(guān)注:
壓縮率:壓縮率決定了文本向量化后的長度,壓縮率越高,向量后數(shù)據(jù)越短,訓(xùn)練和推理效率越高,但是對訓(xùn)練數(shù)據(jù)的數(shù)量要求也越大,主流的tokenizer對漢字的壓縮率都在1.5-1.6之間,也就是1.5-1.6個漢字劃分為一個token。
token覆蓋率:token覆蓋率不用糾結(jié)細(xì)節(jié),只需要關(guān)注是否有你的目標(biāo)語種的token,比如llama的tokenizer中文就很少,相應(yīng)地中文上壓縮率就比較低,token向字節(jié)流的退化率比較高,也一定程度的
原文鏈接:LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: