谷歌揭秘大模型不會數(shù)r原因:嵌入維度是關鍵,不止分詞器問題
AIGC動態(tài)歡迎閱讀
原標題:谷歌揭秘大模型不會數(shù)r原因:嵌入維度是關鍵,不止分詞器問題
關鍵字:詞匯量,模型,序列,維度,長度
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型做奧賽題游刃有余,簡單的數(shù)數(shù)卻屢屢翻車的原因找到了。
谷歌的一項新研究,發(fā)現(xiàn)大模型不會數(shù)數(shù)的原因,并不是簡單的tokenizer所致,而是沒有足夠的空間來存儲用于計數(shù)的向量。
數(shù)出一段話中某個單詞出現(xiàn)的次數(shù),這樣簡單的任務可以難倒許多大模型,GPT-4o、Claude 3.5也無法幸免。
如果再進一步,想要找到出現(xiàn)頻率最高的一個詞,更是難如登天,即便能蒙對給出的具體數(shù)量也是錯的。
有人認為是詞匯的token化導致了大模型看到的“詞”和我們的看法不一致,但論文表明,實際情況并不是這么簡單。
想數(shù)清單詞,嵌入維度要夠大Transformer的計數(shù)能力與其嵌入維度d和詞匯量m(指詞匯表中詞的數(shù)量,非序列長度)的關系密切相關。
詳細的原因,就涉及到了Transformer統(tǒng)計詞頻時的機制。
Transformer通過一種特殊的嵌入方式,利用嵌入空間的線性結構,巧妙地將計數(shù)問題轉化為了向量加法。
具體說是將每個詞映射到一個獨特的正交向量上,在這種表示下,詞頻可以通過對這些正交向量求和來簡單地計算。
然而,這種機制的局限性在于,它要求詞匯表
原文鏈接:谷歌揭秘大模型不會數(shù)r原因:嵌入維度是關鍵,不止分詞器問題
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...