突破Scaling Law:vivo AI Lab揭示文本分類任務(wù)中的數(shù)據(jù)質(zhì)量提升新策略
用近一半數(shù)據(jù),有效提升訓(xùn)練集的訓(xùn)練效率
原標(biāo)題:Scaling Law不總是適用!尤其在文本分類任務(wù)中,vivo AI Lab提出數(shù)據(jù)質(zhì)量提升解決方法
文章來源:量子位
內(nèi)容字?jǐn)?shù):4814字
vivo AI Lab 提出的數(shù)據(jù)質(zhì)量提升方法概述
近期,vivo AI Lab 研究團(tuán)隊(duì)提出了一種數(shù)據(jù)質(zhì)量提升(DQE)的方法,旨在提高大語言模型(LLM)在文本分類任務(wù)中的準(zhǔn)確性和效率。研究表明,傳統(tǒng)的縮放定律并不總是適用,尤其是在文本分類任務(wù)中,擴(kuò)增訓(xùn)練集的數(shù)據(jù)量可能導(dǎo)致數(shù)據(jù)沖突和冗余,從而影響模型性能。
1. 數(shù)據(jù)清洗與轉(zhuǎn)換
首先,DQE方法對(duì)訓(xùn)練集進(jìn)行初步的數(shù)據(jù)清洗,處理缺失值、重復(fù)數(shù)據(jù)和標(biāo)簽不一致的數(shù)據(jù)。接著,利用文本嵌入模型將文本轉(zhuǎn)化為語義向量。通過貪婪采樣,隨機(jī)選擇初始數(shù)據(jù)向量,每次選擇與向量中心距離最遠(yuǎn)的數(shù)據(jù)以提升數(shù)據(jù)多樣性。
2. 數(shù)據(jù)集劃分與模型微調(diào)
最終收集50%的數(shù)據(jù)作為sampled,剩余50%作為unsampled。使用sampled數(shù)據(jù)集微調(diào)大語言模型,并通過向量檢索將未采樣數(shù)據(jù)中的預(yù)測錯(cuò)誤分為Uncovered、Difficult和Noisy三種類型。通過這種分類,研究者能夠更有效地優(yōu)化模型性能。
3. 錯(cuò)誤數(shù)據(jù)類型識(shí)別
Uncovered數(shù)據(jù)是指sampled未覆蓋的數(shù)據(jù),Difficult數(shù)據(jù)是難以學(xué)習(xí)的樣本,而Noisy數(shù)據(jù)則是由于標(biāo)簽不一致造成的噪聲。利用GPT-4o進(jìn)行輔助判斷,能夠進(jìn)一步提高標(biāo)注的準(zhǔn)確性。
4. 實(shí)驗(yàn)結(jié)果與分析
在多個(gè)數(shù)據(jù)集(如MR、CR、IMDb等)上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示DQE方法以更少的數(shù)據(jù)獲得了更高的準(zhǔn)確率,訓(xùn)練效率顯著提升。統(tǒng)計(jì)顯著性分析表明,DQE方法在大多數(shù)測試集上表現(xiàn)優(yōu)于全量數(shù)據(jù)微調(diào)模型。
5. 結(jié)論與前景
DQE方法為文本分類任務(wù)提供了一種新的思路,通過優(yōu)化數(shù)據(jù)質(zhì)量而非單純增加數(shù)據(jù)量,有效提升了模型性能。在實(shí)際應(yīng)用中,尤其是情感分析和用戶意圖識(shí)別等關(guān)鍵領(lǐng)域,數(shù)據(jù)質(zhì)量的提升將有助于更好地服務(wù)于AI Agent的性能需求。
欲了解更多詳情,請參考論文鏈接:論文地址。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破