Nemotron-CC

Nemotron-CC – 英偉達(dá)推出的大型預(yù)訓(xùn)練數(shù)據(jù)集

Nemotron-CC是什么

Nemotron-CC是NVIDIA團(tuán)隊開發(fā)的一款大型預(yù)訓(xùn)練數(shù)據(jù)集，旨在將Common Crawl的數(shù)據(jù)轉(zhuǎn)化為適合長序列模型訓(xùn)練的高質(zhì)量語料。該數(shù)據(jù)集通過結(jié)合分類器集成、合成數(shù)據(jù)重述和降低對啟發(fā)式過濾器的依賴等技術(shù)，成功實現(xiàn)了數(shù)據(jù)量與質(zhì)量之間的優(yōu)化平衡。Nemotron-CC包含6.3萬億個tokens，其中4.4萬億為全球去重的原始tokens，1.9萬億為合成生成的tokens。在短期（1T tokens）和長期（15T tokens）訓(xùn)練中，Nemotron-CC展現(xiàn)出卓越的性能，尤其在MMLU等任務(wù)上，相比DCLM和Llama 3.1模型，顯著提高了模型的準(zhǔn)確率。Nemotron-CC的推出為大型語言模型的訓(xùn)練提供了更加豐富和多樣化的數(shù)據(jù)資源。

Nemotron-CC

Nemotron-CC的主要功能

提供高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集：Nemotron-CC為大型語言模型（LLMs）提供了高品質(zhì)和大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)，特別適合于長序列訓(xùn)練，滿足15T tokens的需求。
優(yōu)化數(shù)據(jù)量與質(zhì)量：在保證數(shù)據(jù)質(zhì)量的基礎(chǔ)上，顯著增加數(shù)據(jù)集的規(guī)模，包含更多獨特的真實tokens，從而提升模型在長序列訓(xùn)練中的表現(xiàn)。
助力模型性能提升：研究表明，利用Nemotron-CC訓(xùn)練的模型在多項基準(zhǔn)測試中表現(xiàn)出色，特別是在MMLU等任務(wù)上，相較于其他現(xiàn)有數(shù)據(jù)集，能夠顯著提高模型的準(zhǔn)確性。

Nemotron-CC的技術(shù)原理

優(yōu)化文本提取：采用Justext作為HTML到文本的提取工具，以其在高質(zhì)量tokens提取中的優(yōu)越表現(xiàn)，有效提升了數(shù)據(jù)集的初始質(zhì)量。
基于模型的質(zhì)量標(biāo)記：
- 分類器集成：構(gòu)建了三個具有不同高質(zhì)量偏好的質(zhì)量分類器，通過集成這些分類器，為所有文檔打分，并依據(jù)質(zhì)量得分對爬取的語料進(jìn)行分類。
- 質(zhì)量標(biāo)簽分配：進(jìn)一步對細(xì)粒度的質(zhì)量得分進(jìn)行聚類，劃分為五個下游任務(wù)的質(zhì)量類別，基于連續(xù)預(yù)訓(xùn)練和任務(wù)性能評估，為每個類別分配更為貼近實際性能的質(zhì)量標(biāo)簽。
合成數(shù)據(jù)生成：
- 低質(zhì)量數(shù)據(jù)重述：針對低質(zhì)量文檔，通過重述減少噪聲和錯誤，同時保留有用信息，采用Wikipedia風(fēng)格的提示對低質(zhì)量文檔進(jìn)行重述，有效降低錯誤率和冗余，提高文本格式化水平。
- 高質(zhì)量數(shù)據(jù)擴(kuò)展：對高質(zhì)量文檔，通過生成多樣化的問答對、提取和整理知識等方式，獲取更多獨特的tokens，豐富數(shù)據(jù)集內(nèi)容和多樣性。
數(shù)據(jù)集整合：
- 大規(guī)模數(shù)據(jù)合成：利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens，其中包括從低質(zhì)量文檔生成的3363億tokens和從高質(zhì)量文檔生成的1.5萬億tokens。
- 數(shù)據(jù)集構(gòu)建：將上述技術(shù)和方法應(yīng)用于Common Crawl的99個快照（CC-MAIN-2013-20至CC-MAIN-2024-30），構(gòu)建了6.3萬億tokens的數(shù)據(jù)集，其中4.4萬億為全球去重的原始tokens，1.9萬億為合成生成的tokens。

Nemotron-CC的項目地址

項目官網(wǎng)：https://developer.nvidia.com/blog/announcing-nemotron-cc
arXiv技術(shù)論文：https://arxiv.org/pdf/2412.02595

Nemotron-CC的應(yīng)用場景

預(yù)訓(xùn)練大型語言模型：適用于長序列訓(xùn)練（如15T tokens），提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
微調(diào)與特定任務(wù)適應(yīng)：便于模型在多任務(wù)學(xué)習(xí)和特定領(lǐng)域中快速適應(yīng)，提升任務(wù)完成度。
文本生成任務(wù)：用于生成高質(zhì)量的文本，如新聞報道、故事創(chuàng)作，并提升對話系統(tǒng)的自然流暢性。
研究與開發(fā)：促進(jìn)模型架構(gòu)和訓(xùn)練方法的探索，提供基準(zhǔn)測試資源以支持研究。
教育與培訓(xùn)：生成教育資源，輔助語言學(xué)習(xí)，豐富教育內(nèi)容的多樣性。

閱讀原文