大模型推理更可能是概率模式匹配?北大團(tuán)隊(duì)從蒙特卡洛語言樹的新視角解讀GPT,思維鏈原理也有新的理解
同時(shí)還解釋了大模型幻覺現(xiàn)象
原標(biāo)題:大模型推理更可能是概率模式匹配?北大團(tuán)隊(duì)從蒙特卡洛語言樹的新視角解讀GPT,思維鏈原理也有新的理解
文章來源:量子位
內(nèi)容字?jǐn)?shù):3417字
GPT-Tree:理解大模型行為的新視角
北京大學(xué)課題組提出了一種新穎的視角,將語言數(shù)據(jù)集和GPT模型分別展開為蒙特卡洛語言樹(Data-Tree和GPT-Tree),從而更深入地理解大模型的行為,包括思維鏈的有效性、token-bias現(xiàn)象以及模型幻覺。
1. Data-Tree和GPT-Tree的構(gòu)建
研究人員證明,任何語言數(shù)據(jù)集都可以用Data-Tree完美表示。Data-Tree以第一個(gè)token作為根節(jié)點(diǎn),通過枚舉后續(xù)token及其條件頻率構(gòu)建樹結(jié)構(gòu)。GPT-Tree則通過將GPT模型作為預(yù)測引擎,以同樣的方式構(gòu)建,記錄每個(gè)token的概率分布。兩者都通過蒙特卡洛樹的方式展開,參數(shù)化模型參數(shù)θ。
2. 大模型的本質(zhì):數(shù)據(jù)樹近似
研究發(fā)現(xiàn),不同GPT模型(如GPT-neo-X系列)在同一數(shù)據(jù)集上訓(xùn)練后,其GPT-Tree結(jié)構(gòu)具有顯著相似性,且模型越大,其GPT-Tree越接近Data-Tree。超過87%的GPT輸出token可以被Data-Tree召回。這表明,大模型訓(xùn)練的本質(zhì)是學(xué)習(xí)一種更有效地近似Data-Tree的方法,其推理過程更可能是概率模式匹配而非形式推理。
3. Token-bias和模型幻覺的解釋
研究解釋了token-bias現(xiàn)象:一些罕見的token會(huì)誘導(dǎo)GPT-Tree進(jìn)入錯(cuò)誤的推斷路徑,導(dǎo)致模型輸出錯(cuò)誤。通過實(shí)驗(yàn),他們發(fā)現(xiàn)擾動(dòng)最后一個(gè)token會(huì)顯著降低模型準(zhǔn)確性。模型幻覺則被解釋為數(shù)據(jù)樹中token共現(xiàn)偏差導(dǎo)致的。例如,多倫多和加拿大這兩個(gè)詞的高頻共現(xiàn),可能導(dǎo)致模型錯(cuò)誤地將多倫多認(rèn)定為加拿大首都。
4. 思維鏈的有效性解釋
在蒙特卡洛樹視角下,思維鏈的有效性在于彌補(bǔ)輸入X和輸出Y之間存在的差距。對(duì)于復(fù)雜問題,Y可能位于GPT-Tree中較深的葉節(jié)點(diǎn),思維鏈的作用是找到連接X和Y的路徑Z,幫助模型更好地進(jìn)行預(yù)測。
5. 研究意義
這項(xiàng)研究為理解大模型行為提供了新的視角,解釋了模型的優(yōu)勢和局限性,例如思維鏈的有效性、token-bias和模型幻覺。通過將模型和數(shù)據(jù)轉(zhuǎn)化為樹形結(jié)構(gòu),研究人員能夠更直觀地分析模型的學(xué)習(xí)過程和推理機(jī)制,為未來大模型的改進(jìn)提供新的思路。
6. 結(jié)論
GPT-Tree框架為理解大語言模型提供了一種全新的、直觀的分析方法,有助于我們更好地理解這些模型的運(yùn)作機(jī)制,并為改進(jìn)模型性能提供理論指導(dǎo)。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破