用近一半數據,有效提升訓練集的訓練效率
原標題:Scaling Law不總是適用!尤其在文本分類任務中,vivo AI Lab提出數據質量提升解決方法
文章來源:量子位
內容字數:4814字
vivo AI Lab 提出的數據質量提升方法概述
近期,vivo AI Lab 研究團隊提出了一種數據質量提升(DQE)的方法,旨在提高大語言模型(LLM)在文本分類任務中的準確性和效率。研究表明,傳統的縮放定律并不總是適用,尤其是在文本分類任務中,擴增訓練集的數據量可能導致數據沖突和冗余,從而影響模型性能。
1. 數據清洗與轉換
首先,DQE方法對訓練集進行初步的數據清洗,處理缺失值、重復數據和標簽不一致的數據。接著,利用文本嵌入模型將文本轉化為語義向量。通過貪婪采樣,隨機選擇初始數據向量,每次選擇與向量中心距離最遠的數據以提升數據多樣性。
2. 數據集劃分與模型微調
最終收集50%的數據作為sampled,剩余50%作為unsampled。使用sampled數據集微調大語言模型,并通過向量檢索將未采樣數據中的預測錯誤分為Uncovered、Difficult和Noisy三種類型。通過這種分類,研究者能夠更有效地優化模型性能。
3. 錯誤數據類型識別
Uncovered數據是指sampled未覆蓋的數據,Difficult數據是難以學習的樣本,而Noisy數據則是由于標簽不一致造成的噪聲。利用GPT-4o進行輔助判斷,能夠進一步提高標注的準確性。
4. 實驗結果與分析
在多個數據集(如MR、CR、IMDb等)上進行對比實驗,結果顯示DQE方法以更少的數據獲得了更高的準確率,訓練效率顯著提升。統計顯著性分析表明,DQE方法在大多數測試集上表現優于全量數據微調模型。
5. 結論與前景
DQE方法為文本分類任務提供了一種新的思路,通過優化數據質量而非單純增加數據量,有效提升了模型性能。在實際應用中,尤其是情感分析和用戶意圖識別等關鍵領域,數據質量的提升將有助于更好地服務于AI Agent的性能需求。
欲了解更多詳情,請參考論文鏈接:論文地址。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破