<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破Scaling Law:vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 量子位
        414 0 0

        用近一半數(shù)據(jù),有效提升訓(xùn)練集的訓(xùn)練效率

        突破Scaling Law:vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略

        原標(biāo)題:Scaling Law不總是適用!尤其在文本分類任務(wù)中,vivo AI Lab提出數(shù)據(jù)質(zhì)量提升解決方法
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):4814字

        vivo AI Lab 提出的數(shù)據(jù)質(zhì)量提升方法概述

        近期,vivo AI Lab 研究團(tuán)隊(duì)提出了一種數(shù)據(jù)質(zhì)量提升(DQE)的方法,旨在提高大語言模型(LLM)在文本分類任務(wù)中的準(zhǔn)確性和效率。研究表明,傳統(tǒng)的縮放定律并不總是適用,尤其是在文本分類任務(wù)中,擴(kuò)增訓(xùn)練集的數(shù)據(jù)量可能導(dǎo)致數(shù)據(jù)沖突和冗余,從而影響模型性能。

        1. 數(shù)據(jù)清洗與轉(zhuǎn)換

        首先,DQE方法對(duì)訓(xùn)練集進(jìn)行初步的數(shù)據(jù)清洗,處理缺失值、重復(fù)數(shù)據(jù)和標(biāo)簽不一致的數(shù)據(jù)。接著,利用文本嵌入模型將文本轉(zhuǎn)化為語義向量。通過貪婪采樣,隨機(jī)選擇初始數(shù)據(jù)向量,每次選擇與向量中心距離最遠(yuǎn)的數(shù)據(jù)以提升數(shù)據(jù)多樣性。

        2. 數(shù)據(jù)集劃分與模型微調(diào)

        最終收集50%的數(shù)據(jù)作為sampled,剩余50%作為unsampled。使用sampled數(shù)據(jù)集微調(diào)大語言模型,并通過向量檢索將未采樣數(shù)據(jù)中的預(yù)測錯(cuò)誤分為Uncovered、Difficult和Noisy三種類型。通過這種分類,研究者能夠更有效地優(yōu)化模型性能。

        3. 錯(cuò)誤數(shù)據(jù)類型識(shí)別

        Uncovered數(shù)據(jù)是指sampled未覆蓋的數(shù)據(jù),Difficult數(shù)據(jù)是難以學(xué)習(xí)的樣本,而Noisy數(shù)據(jù)則是由于標(biāo)簽不一致造成的噪聲。利用GPT-4o進(jìn)行輔助判斷,能夠進(jìn)一步提高標(biāo)注的準(zhǔn)確性。

        4. 實(shí)驗(yàn)結(jié)果與分析

        在多個(gè)數(shù)據(jù)集(如MR、CR、IMDb等)上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示DQE方法以更少的數(shù)據(jù)獲得了更高的準(zhǔn)確率,訓(xùn)練效率顯著提升。統(tǒng)計(jì)顯著性分析表明,DQE方法在大多數(shù)測試集上表現(xiàn)優(yōu)于全量數(shù)據(jù)微調(diào)模型。

        5. 結(jié)論與前景

        DQE方法為文本分類任務(wù)提供了一種新的思路,通過優(yōu)化數(shù)據(jù)質(zhì)量而非單純增加數(shù)據(jù)量,有效提升了模型性能。在實(shí)際應(yīng)用中,尤其是情感分析和用戶意圖識(shí)別等關(guān)鍵領(lǐng)域,數(shù)據(jù)質(zhì)量的提升將有助于更好地服務(wù)于AI Agent的性能需求。

        欲了解更多詳情,請參考論文鏈接:論文地址


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 日韩免费无砖专区2020狼| 亚洲国产熟亚洲女视频| 国产成人无码免费视频97| 久久大香伊焦在人线免费| 永久免费观看黄网站| 亚洲日韩一区二区一无码| 亚洲最新永久在线观看| 国产午夜亚洲精品理论片不卡| 成人毛片18女人毛片免费96| 99久久99久久精品免费观看| 最近国语视频在线观看免费播放| 苍井空亚洲精品AA片在线播放 | 春暖花开亚洲性无区一区二区 | 成人片黄网站色大片免费观看cn| 亚洲日产乱码一二三区别| 亚洲精品美女久久久久9999| 亚洲av午夜成人片精品网站 | 中文字幕av免费专区| 美女裸免费观看网站| 亚洲日本天堂在线| 亚洲精品一二三区| 亚洲一卡二卡三卡四卡无卡麻豆| 久久久亚洲精品无码| 久久精品国产亚洲麻豆| 国产亚洲人成无码网在线观看| AV在线亚洲男人的天堂| 国产亚洲精品国看不卡| 久久久久亚洲av毛片大| 久久亚洲中文字幕精品一区四| 亚洲人成网站18禁止一区| 亚洲国产精品不卡毛片a在线| 免费一级肉体全黄毛片| 亚洲第一永久AV网站久久精品男人的天堂AV | 久草免费在线观看视频| 曰批全过程免费视频网址| 91精品视频在线免费观看| 亚洲成人免费网站| 妞干网免费观看视频| 国产精品视_精品国产免费| 免费一级毛片不卡不收费| 日韩亚洲变态另类中文|