<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型訓(xùn)練或無(wú)需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪

        AIGC動(dòng)態(tài)6個(gè)月前發(fā)布 量子位
        328 0 0

        在噪聲環(huán)境中依然保持強(qiáng)勁表現(xiàn)

        大模型訓(xùn)練或無(wú)需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪

        原標(biāo)題:大模型訓(xùn)練或無(wú)需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):4549字

        北大團(tuán)隊(duì):大模型訓(xùn)練并非必須依賴“純凈數(shù)據(jù)”

        傳統(tǒng)的大語(yǔ)言模型訓(xùn)練依賴于“純凈數(shù)據(jù)”,即經(jīng)過(guò)仔細(xì)篩選、語(yǔ)確且邏輯嚴(yán)密的文本。然而,北京大學(xué)的研究團(tuán)隊(duì)近期的一項(xiàng)研究挑戰(zhàn)了這一觀點(diǎn),認(rèn)為適量的“噪聲數(shù)據(jù)”并不會(huì)顯著影響模型性能,甚至可能帶來(lái)意想不到的益處。

        1. 核心發(fā)現(xiàn):噪聲數(shù)據(jù)對(duì)大模型訓(xùn)練的影響

          研究團(tuán)隊(duì)通過(guò)在訓(xùn)練數(shù)據(jù)中添加高達(dá)20%的隨機(jī)亂碼,訓(xùn)練了多個(gè)GPT-2模型。結(jié)果顯示,即使面對(duì)如此高比例的噪聲數(shù)據(jù),模型的Next-token Prediction (NTP) loss僅上升約1%。更令人驚訝的是,在一些下游任務(wù)測(cè)試中,含噪模型甚至表現(xiàn)出更低的NTP loss。這表明,傳統(tǒng)的“純凈數(shù)據(jù)”假設(shè)可能過(guò)于嚴(yán)格。

        2. 理論解釋:隨機(jī)噪聲與模型性能的復(fù)雜關(guān)系

          研究團(tuán)隊(duì)從理論角度分析了這一現(xiàn)象。他們將NTP過(guò)程建模為一個(gè)分類任務(wù),并證明了在特定條件下,隨機(jī)噪聲的存在不會(huì)改變NTP loss的全局最小值。該理論解釋了為什么多語(yǔ)言模型和在充滿背景噪音的數(shù)據(jù)集上訓(xùn)練的音頻模型能夠成功。他們還通過(guò)實(shí)驗(yàn)驗(yàn)證了這一理論的正確性,包括使用高斯分布生成的噪聲。

        3. 解決方法:局部梯度匹配(LGM)損失函數(shù)

          盡管預(yù)訓(xùn)練損失變化微弱,但下游任務(wù)性能卻可能受到影響。研究團(tuán)隊(duì)發(fā)現(xiàn),在高斯噪聲上訓(xùn)練的模型,盡管NTP loss更低,但在文本分類下游任務(wù)中的準(zhǔn)確率卻下降。為了解決這個(gè)問題,他們提出了一種名為“局部梯度匹配”(LGM)的即插即用解決方案。LGM通過(guò)在特征中添加高斯噪聲并約束原始/擾動(dòng)特征的梯度差異,增強(qiáng)分類頭的抗噪能力,從而彌補(bǔ)噪聲導(dǎo)致的特征偏移。實(shí)驗(yàn)結(jié)果表明,LGM可以顯著提升受噪聲影響的模型在下游任務(wù)中的性能,甚至在干凈模型上也能提升1%-3%的準(zhǔn)確率。

        4. 啟示與展望:數(shù)據(jù)清洗的新思考

          這項(xiàng)研究為大規(guī)模預(yù)訓(xùn)練提供了新的視角:首先,它表明適度保留隨機(jī)噪聲可以降低數(shù)據(jù)清洗成本;其次,它為多語(yǔ)言模型的成功提供了理論解釋;第三,它提出了一種新的數(shù)據(jù)增強(qiáng)方法,即可控噪聲注入,可以提升模型的泛化能力。然而,研究也存在局限性,例如實(shí)驗(yàn)僅基于GPT-2規(guī)模模型,未來(lái)需要進(jìn)一步研究超大規(guī)模模型的噪聲耐受性以及LGM在其他模態(tài)中的應(yīng)用。

        總而言之,北大團(tuán)隊(duì)的研究挑戰(zhàn)了大語(yǔ)言模型訓(xùn)練對(duì)“純凈數(shù)據(jù)”的依賴,為降低數(shù)據(jù)清洗成本、提升模型泛化能力提供了新的思路和方法。這項(xiàng)研究的成果具有重要的理論意義和實(shí)際應(yīng)用價(jià)值。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 18女人毛片水真多免费| 亚洲精品无码日韩国产不卡av| 免费无码午夜福利片69| 日韩精品无码人妻免费视频| 亚洲老熟女@TubeumTV| 免费黄色福利视频| 国产精品免费久久| 亚洲国产成人VA在线观看| 一级做a爰片久久毛片免费陪| 亚洲国产成人精品女人久久久 | 欧洲人成在线免费| 亚洲韩国—中文字幕| 四虎在线最新永久免费| 亚洲AV无码专区在线亚| 免费无码又爽又刺激高潮| 国产亚洲精品仙踪林在线播放| 亚洲色偷偷狠狠综合网| 免费在线黄色电影| 亚洲国产av美女网站| 国产高清在线精品免费软件| 日韩在线视频线视频免费网站| 亚洲VA成无码人在线观看天堂| 91大神在线免费观看| 亚洲人成电影网站色www| 亚洲国产高清精品线久久| 毛片在线全部免费观看| 亚洲一区二区三区在线观看蜜桃 | 亚洲剧场午夜在线观看| 在线观看国产情趣免费视频 | 免费A级毛片无码视频| 亚洲一区二区三区精品视频| 国产成人免费一区二区三区| 最近免费中文字幕MV在线视频3| 亚洲国产中文在线视频| 亚洲国产综合精品中文字幕| 无码av免费一区二区三区试看| 亚洲性色精品一区二区在线| 亚洲综合国产一区二区三区| 在线看免费观看AV深夜影院| 永久免费观看黄网站| 久久精品国产精品亚洲艾草网|