大模型訓(xùn)練或無(wú)需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪
在噪聲環(huán)境中依然保持強(qiáng)勁表現(xiàn)
原標(biāo)題:大模型訓(xùn)練或無(wú)需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4549字
北大團(tuán)隊(duì):大模型訓(xùn)練并非必須依賴“純凈數(shù)據(jù)”
傳統(tǒng)的大語(yǔ)言模型訓(xùn)練依賴于“純凈數(shù)據(jù)”,即經(jīng)過(guò)仔細(xì)篩選、語(yǔ)確且邏輯嚴(yán)密的文本。然而,北京大學(xué)的研究團(tuán)隊(duì)近期的一項(xiàng)研究挑戰(zhàn)了這一觀點(diǎn),認(rèn)為適量的“噪聲數(shù)據(jù)”并不會(huì)顯著影響模型性能,甚至可能帶來(lái)意想不到的益處。
核心發(fā)現(xiàn):噪聲數(shù)據(jù)對(duì)大模型訓(xùn)練的影響
研究團(tuán)隊(duì)通過(guò)在訓(xùn)練數(shù)據(jù)中添加高達(dá)20%的隨機(jī)亂碼,訓(xùn)練了多個(gè)GPT-2模型。結(jié)果顯示,即使面對(duì)如此高比例的噪聲數(shù)據(jù),模型的Next-token Prediction (NTP) loss僅上升約1%。更令人驚訝的是,在一些下游任務(wù)測(cè)試中,含噪模型甚至表現(xiàn)出更低的NTP loss。這表明,傳統(tǒng)的“純凈數(shù)據(jù)”假設(shè)可能過(guò)于嚴(yán)格。
理論解釋:隨機(jī)噪聲與模型性能的復(fù)雜關(guān)系
研究團(tuán)隊(duì)從理論角度分析了這一現(xiàn)象。他們將NTP過(guò)程建模為一個(gè)分類任務(wù),并證明了在特定條件下,隨機(jī)噪聲的存在不會(huì)改變NTP loss的全局最小值。該理論解釋了為什么多語(yǔ)言模型和在充滿背景噪音的數(shù)據(jù)集上訓(xùn)練的音頻模型能夠成功。他們還通過(guò)實(shí)驗(yàn)驗(yàn)證了這一理論的正確性,包括使用高斯分布生成的噪聲。
解決方法:局部梯度匹配(LGM)損失函數(shù)
盡管預(yù)訓(xùn)練損失變化微弱,但下游任務(wù)性能卻可能受到影響。研究團(tuán)隊(duì)發(fā)現(xiàn),在高斯噪聲上訓(xùn)練的模型,盡管NTP loss更低,但在文本分類下游任務(wù)中的準(zhǔn)確率卻下降。為了解決這個(gè)問題,他們提出了一種名為“局部梯度匹配”(LGM)的即插即用解決方案。LGM通過(guò)在特征中添加高斯噪聲并約束原始/擾動(dòng)特征的梯度差異,增強(qiáng)分類頭的抗噪能力,從而彌補(bǔ)噪聲導(dǎo)致的特征偏移。實(shí)驗(yàn)結(jié)果表明,LGM可以顯著提升受噪聲影響的模型在下游任務(wù)中的性能,甚至在干凈模型上也能提升1%-3%的準(zhǔn)確率。
啟示與展望:數(shù)據(jù)清洗的新思考
這項(xiàng)研究為大規(guī)模預(yù)訓(xùn)練提供了新的視角:首先,它表明適度保留隨機(jī)噪聲可以降低數(shù)據(jù)清洗成本;其次,它為多語(yǔ)言模型的成功提供了理論解釋;第三,它提出了一種新的數(shù)據(jù)增強(qiáng)方法,即可控噪聲注入,可以提升模型的泛化能力。然而,研究也存在局限性,例如實(shí)驗(yàn)僅基于GPT-2規(guī)模模型,未來(lái)需要進(jìn)一步研究超大規(guī)模模型的噪聲耐受性以及LGM在其他模態(tài)中的應(yīng)用。
總而言之,北大團(tuán)隊(duì)的研究挑戰(zhàn)了大語(yǔ)言模型訓(xùn)練對(duì)“純凈數(shù)據(jù)”的依賴,為降低數(shù)據(jù)清洗成本、提升模型泛化能力提供了新的思路和方法。這項(xiàng)研究的成果具有重要的理論意義和實(shí)際應(yīng)用價(jià)值。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破