谷歌揭秘大模型不會數(shù)r原因：嵌入維度是關鍵，不止分詞器問題

AIGC動態(tài)歡迎閱讀

原標題：谷歌揭秘大模型不會數(shù)r原因：嵌入維度是關鍵，不止分詞器問題
關鍵字：詞匯量,模型,序列,維度,長度
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI大模型做奧賽題游刃有余，簡單的數(shù)數(shù)卻屢屢翻車的原因找到了。
谷歌的一項新研究，發(fā)現(xiàn)大模型不會數(shù)數(shù)的原因，并不是簡單的tokenizer所致，而是沒有足夠的空間來存儲用于計數(shù)的向量。
數(shù)出一段話中某個單詞出現(xiàn)的次數(shù)，這樣簡單的任務可以難倒許多大模型，GPT-4o、Claude 3.5也無法幸免。
如果再進一步，想要找到出現(xiàn)頻率最高的一個詞，更是難如登天，即便能蒙對給出的具體數(shù)量也是錯的。
有人認為是詞匯的token化導致了大模型看到的“詞”和我們的看法不一致，但論文表明，實際情況并不是這么簡單。
想數(shù)清單詞，嵌入維度要夠大Transformer的計數(shù)能力與其嵌入維度d和詞匯量m（指詞匯表中詞的數(shù)量，非序列長度）的關系密切相關。
詳細的原因，就涉及到了Transformer統(tǒng)計詞頻時的機制。
Transformer通過一種特殊的嵌入方式，利用嵌入空間的線性結構，巧妙地將計數(shù)問題轉化為了向量加法。
具體說是將每個詞映射到一個獨特的正交向量上，在這種表示下，詞頻可以通過對這些正交向量求和來簡單地計算。
然而，這種機制的局限性在于，它要求詞匯表

原文鏈接：谷歌揭秘大模型不會數(shù)r原因：嵌入維度是關鍵，不止分詞器問題