Karpathy：用表情包解釋一下，為什么AI數(shù)不清Strawberry幾個(gè) r？

AIGC動態(tài)1年前 (2024)發(fā)布 Founder Park

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Karpathy：用表情包解釋一下，為什么AI數(shù)不清Strawberry幾個(gè) r？
關(guān)鍵字：模型,問題,數(shù)據(jù),知識,能力
文章來源：Founder Park
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

還記得這些天大模型被揪出來的低級錯誤嗎？
不知道 13.11 和 13.8哪個(gè)大，數(shù)不清 Strawberry 單詞里面有多少個(gè) r…… 每每被發(fā)現(xiàn)一個(gè)弱點(diǎn)，大模型都只能接受人們的無情嘲笑。
嘲笑之后，大家也冷靜了下來，開始思考：低級錯誤背后的本質(zhì)是什么？大家普遍認(rèn)為，是 Token 化（Tokenization）的鍋。
AI大神Karpathy按照程序被設(shè)計(jì)的表示方法，用表情包展現(xiàn)了大模型眼中的文字世界，「How many letters ‘r’ in the word’strawberry’?」在 LLM 看來是：01Karpathy：用表情包模擬LLM的文字世界在國內(nèi)，Tokenization 經(jīng)常被翻譯成「分詞」。這個(gè)翻譯有一定的誤導(dǎo)性，因?yàn)?Tokenization 里的 token 指的未必是詞，也可以是標(biāo)點(diǎn)符號、數(shù)字或者某個(gè)單詞的一部分。比如，在 OpenAI 提供的一個(gè)工具中，我們可以看到，Strawberry 這個(gè)單詞就被分為了 Str-aw-berry 三個(gè) token。在這種情況下，你讓 AI 大模型數(shù)單詞里有幾個(gè) r，屬實(shí)是為難它。
除了草莓 (Strawber

原文鏈接：Karpathy：用表情包解釋一下，為什么AI數(shù)不清Strawberry幾個(gè) r？