Karpathy新視頻又火了:從頭構(gòu)建GPT Tokenizer
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Karpathy新視頻又火了:從頭構(gòu)建GPT Tokenizer
關(guān)鍵字:分詞,騰訊,模型,字節(jié),算法
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5240字
內(nèi)容摘要:
豐色 魚(yú)羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI技術(shù)大神卡帕西離職OpenAI以后,營(yíng)業(yè)可謂相當(dāng)積極啊。
這不,前腳新項(xiàng)目剛上線,后腳全新的教學(xué)視頻又給大伙整出來(lái)了:
這次,是手把手教咱構(gòu)建一個(gè)GPT Tokenizer(分詞器),還是熟悉的時(shí)長(zhǎng)(足足2小時(shí)13分鐘)。
Ps. 上次講課還是倆月前的大模型科普。
所謂“卡帕西出手,必屬精品”,大伙火速碼碼碼:
今晚的約會(huì)取消,卡帕西來(lái)了我要去上課(狗頭)
再說(shuō)一遍,付費(fèi)都買(mǎi)不到的這樣高質(zhì)量的課程,沖。
具體都有哪些干貨?
“太長(zhǎng)不看版”已為大家準(zhǔn)備好。
為什么要關(guān)注Tokenizer如大神介紹:
Tokenizer即分詞器是大語(yǔ)言模型pipeline中一個(gè)完全的階段。
它們有自己的訓(xùn)練集、算法(比如BPE,字節(jié)對(duì)編碼),并在訓(xùn)練完成后實(shí)現(xiàn)兩個(gè)功能:從字符串編碼到token,以及從token解碼回字符串。
為什么我們需要關(guān)注它?
卡帕西指出:
因?yàn)長(zhǎng)LM中的很多奇怪行為和問(wèn)題都可以追溯到它。
比如:
為什么大模型不能處理簡(jiǎn)單的字符串處理任務(wù),例如反轉(zhuǎn)?
為什么大模型在非英語(yǔ)語(yǔ)言任務(wù)方面的性能更差?
為什么大模型不擅長(zhǎng)簡(jiǎn)單的算術(shù)
原文鏈接:Karpathy新視頻又火了:從頭構(gòu)建GPT Tokenizer
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破