突破Scaling Law：vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略

用近一半數(shù)據(jù)，有效提升訓(xùn)練集的訓(xùn)練效率

原標(biāo)題：Scaling Law不總是適用！尤其在文本分類任務(wù)中，vivo AI Lab提出數(shù)據(jù)質(zhì)量提升解決方法
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4814字

vivo AI Lab 提出的數(shù)據(jù)質(zhì)量提升方法概述

近期，vivo AI Lab 研究團(tuán)隊(duì)提出了一種數(shù)據(jù)質(zhì)量提升（DQE）的方法，旨在提高大語言模型（LLM）在文本分類任務(wù)中的準(zhǔn)確性和效率。研究表明，傳統(tǒng)的縮放定律并不總是適用，尤其是在文本分類任務(wù)中，擴(kuò)增訓(xùn)練集的數(shù)據(jù)量可能導(dǎo)致數(shù)據(jù)沖突和冗余，從而影響模型性能。

1. 數(shù)據(jù)清洗與轉(zhuǎn)換

首先，DQE方法對(duì)訓(xùn)練集進(jìn)行初步的數(shù)據(jù)清洗，處理缺失值、重復(fù)數(shù)據(jù)和標(biāo)簽不一致的數(shù)據(jù)。接著，利用文本嵌入模型將文本轉(zhuǎn)化為語義向量。通過貪婪采樣，隨機(jī)選擇初始數(shù)據(jù)向量，每次選擇與向量中心距離最遠(yuǎn)的數(shù)據(jù)以提升數(shù)據(jù)多樣性。

2. 數(shù)據(jù)集劃分與模型微調(diào)

最終收集50%的數(shù)據(jù)作為sampled，剩余50%作為unsampled。使用sampled數(shù)據(jù)集微調(diào)大語言模型，并通過向量檢索將未采樣數(shù)據(jù)中的預(yù)測錯(cuò)誤分為Uncovered、Difficult和Noisy三種類型。通過這種分類，研究者能夠更有效地優(yōu)化模型性能。

3. 錯(cuò)誤數(shù)據(jù)類型識(shí)別

Uncovered數(shù)據(jù)是指sampled未覆蓋的數(shù)據(jù)，Difficult數(shù)據(jù)是難以學(xué)習(xí)的樣本，而Noisy數(shù)據(jù)則是由于標(biāo)簽不一致造成的噪聲。利用GPT-4o進(jìn)行輔助判斷，能夠進(jìn)一步提高標(biāo)注的準(zhǔn)確性。

4. 實(shí)驗(yàn)結(jié)果與分析

在多個(gè)數(shù)據(jù)集（如MR、CR、IMDb等）上進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果顯示DQE方法以更少的數(shù)據(jù)獲得了更高的準(zhǔn)確率，訓(xùn)練效率顯著提升。統(tǒng)計(jì)顯著性分析表明，DQE方法在大多數(shù)測試集上表現(xiàn)優(yōu)于全量數(shù)據(jù)微調(diào)模型。

5. 結(jié)論與前景

DQE方法為文本分類任務(wù)提供了一種新的思路，通過優(yōu)化數(shù)據(jù)質(zhì)量而非單純增加數(shù)據(jù)量，有效提升了模型性能。在實(shí)際應(yīng)用中，尤其是情感分析和用戶意圖識(shí)別等關(guān)鍵領(lǐng)域，數(shù)據(jù)質(zhì)量的提升將有助于更好地服務(wù)于AI Agent的性能需求。

欲了解更多詳情，請參考論文鏈接：論文地址。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

突破Scaling Law：vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略

用近一半數(shù)據(jù)，有效提升訓(xùn)練集的訓(xùn)練效率

vivo AI Lab 提出的數(shù)據(jù)質(zhì)量提升方法概述

1. 數(shù)據(jù)清洗與轉(zhuǎn)換

2. 數(shù)據(jù)集劃分與模型微調(diào)

3. 錯(cuò)誤數(shù)據(jù)類型識(shí)別

4. 實(shí)驗(yàn)結(jié)果與分析

5. 結(jié)論與前景

聯(lián)系作者

突破未來：AI醫(yī)療引領(lǐng)AGI時(shí)代的新篇章

吉利將負(fù)責(zé)極越汽車售后/26歲OpenAI 吹哨人死亡，曾曝ChatGPT黑幕 /《黑神話：悟空》創(chuàng)始人談TGA年度最佳

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

突破Scaling Law：vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略

用近一半數(shù)據(jù)，有效提升訓(xùn)練集的訓(xùn)練效率

vivo AI Lab 提出的數(shù)據(jù)質(zhì)量提升方法概述

1. 數(shù)據(jù)清洗與轉(zhuǎn)換

2. 數(shù)據(jù)集劃分與模型微調(diào)

3. 錯(cuò)誤數(shù)據(jù)類型識(shí)別

4. 實(shí)驗(yàn)結(jié)果與分析

5. 結(jié)論與前景

聯(lián)系作者

突破未來：AI醫(yī)療引領(lǐng)AGI時(shí)代的新篇章

吉利將負(fù)責(zé)極越汽車售后/26歲OpenAI 吹哨人死亡，曾曝ChatGPT黑幕 /《黑神話：悟空》創(chuàng)始人談TGA年度最佳

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

用近一半數(shù)據(jù)，有效提升訓(xùn)練集的訓(xùn)練效率