大模型推理更可能是概率模式匹配？北大團(tuán)隊(duì)從蒙特卡洛語(yǔ)言樹(shù)的新視角解讀GPT，思維鏈原理也有新的理解

同時(shí)還解釋了大模型幻覺(jué)現(xiàn)象

原標(biāo)題：大模型推理更可能是概率模式匹配？北大團(tuán)隊(duì)從蒙特卡洛語(yǔ)言樹(shù)的新視角解讀GPT，思維鏈原理也有新的理解
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：3417字

GPT-Tree：理解大模型行為的新視角

北京大學(xué)課題組提出了一種新穎的視角，將語(yǔ)言數(shù)據(jù)集和GPT模型分別展開(kāi)為蒙特卡洛語(yǔ)言樹(shù)（Data-Tree和GPT-Tree），從而更深入地理解大模型的行為，包括思維鏈的有效性、token-bias現(xiàn)象以及模型幻覺(jué)。

1. Data-Tree和GPT-Tree的構(gòu)建

研究人員證明，任何語(yǔ)言數(shù)據(jù)集都可以用Data-Tree完美表示。Data-Tree以第一個(gè)token作為根節(jié)點(diǎn)，通過(guò)枚舉后續(xù)token及其條件頻率構(gòu)建樹(shù)結(jié)構(gòu)。GPT-Tree則通過(guò)將GPT模型作為預(yù)測(cè)引擎，以同樣的方式構(gòu)建，記錄每個(gè)token的概率分布。兩者都通過(guò)蒙特卡洛樹(shù)的方式展開(kāi)，參數(shù)化模型參數(shù)θ。

2. 大模型的本質(zhì)：數(shù)據(jù)樹(shù)近似

研究發(fā)現(xiàn)，不同GPT模型（如GPT-neo-X系列）在同一數(shù)據(jù)集上訓(xùn)練后，其GPT-Tree結(jié)構(gòu)具有顯著相似性，且模型越大，其GPT-Tree越接近Data-Tree。超過(guò)87%的GPT輸出token可以被Data-Tree召回。這表明，大模型訓(xùn)練的本質(zhì)是學(xué)習(xí)一種更有效地近似Data-Tree的方法，其推理過(guò)程更可能是概率模式匹配而非形式推理。

3. Token-bias和模型幻覺(jué)的解釋

研究解釋了token-bias現(xiàn)象：一些罕見(jiàn)的token會(huì)誘導(dǎo)GPT-Tree進(jìn)入錯(cuò)誤的推斷路徑，導(dǎo)致模型輸出錯(cuò)誤。通過(guò)實(shí)驗(yàn)，他們發(fā)現(xiàn)擾動(dòng)最后一個(gè)token會(huì)顯著降低模型準(zhǔn)確性。模型幻覺(jué)則被解釋為數(shù)據(jù)樹(shù)中token共現(xiàn)偏差導(dǎo)致的。例如，多倫多和加拿大這兩個(gè)詞的高頻共現(xiàn)，可能導(dǎo)致模型錯(cuò)誤地將多倫多認(rèn)定為加拿大首都。

4. 思維鏈的有效性解釋

在蒙特卡洛樹(shù)視角下，思維鏈的有效性在于彌補(bǔ)輸入X和輸出Y之間存在的差距。對(duì)于復(fù)雜問(wèn)題，Y可能位于GPT-Tree中較深的葉節(jié)點(diǎn)，思維鏈的作用是找到連接X(jué)和Y的路徑Z，幫助模型更好地進(jìn)行預(yù)測(cè)。

5. 研究意義

這項(xiàng)研究為理解大模型行為提供了新的視角，解釋了模型的優(yōu)勢(shì)和局限性，例如思維鏈的有效性、token-bias和模型幻覺(jué)。通過(guò)將模型和數(shù)據(jù)轉(zhuǎn)化為樹(shù)形結(jié)構(gòu)，研究人員能夠更直觀地分析模型的學(xué)習(xí)過(guò)程和推理機(jī)制，為未來(lái)大模型的改進(jìn)提供新的思路。

6. 結(jié)論

GPT-Tree框架為理解大語(yǔ)言模型提供了一種全新的、直觀的分析方法，有助于我們更好地理解這些模型的運(yùn)作機(jī)制，并為改進(jìn)模型性能提供理論指導(dǎo)。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# GPT思維鏈 # 大模型推理 # 思維鏈推理 # 概率模式匹配 # 蒙特卡洛語(yǔ)言樹(shù)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大模型推理更可能是概率模式匹配？北大團(tuán)隊(duì)從蒙特卡洛語(yǔ)言樹(shù)的新視角解讀GPT，思維鏈原理也有新的理解

同時(shí)還解釋了大模型幻覺(jué)現(xiàn)象

GPT-Tree：理解大模型行為的新視角

1. Data-Tree和GPT-Tree的構(gòu)建

2. 大模型的本質(zhì)：數(shù)據(jù)樹(shù)近似

3. Token-bias和模型幻覺(jué)的解釋

4. 思維鏈的有效性解釋

5. 研究意義

6. 結(jié)論

聯(lián)系作者

讓英偉達(dá)暴跌17%，特朗普“敲響警鐘”，DeepSeek趁熱打鐵又上新模型！

卡內(nèi)基梅隆學(xué)霸賣爆8千元AI鞋，現(xiàn)回浙江老家繼承家業(yè)！曾在勞斯萊斯一年做到leader

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？