Nemotron-CC – 英偉達(dá)推出的大型預(yù)訓(xùn)練數(shù)據(jù)集
Nemotron-CC是什么
Nemotron-CC是NVIDIA團(tuán)隊開發(fā)的一款大型預(yù)訓(xùn)練數(shù)據(jù)集,旨在將Common Crawl的數(shù)據(jù)轉(zhuǎn)化為適合長序列模型訓(xùn)練的高質(zhì)量語料。該數(shù)據(jù)集通過結(jié)合分類器集成、合成數(shù)據(jù)重述和降低對啟發(fā)式過濾器的依賴等技術(shù),成功實現(xiàn)了數(shù)據(jù)量與質(zhì)量之間的優(yōu)化平衡。Nemotron-CC包含6.3萬億個tokens,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。在短期(1T tokens)和長期(15T tokens)訓(xùn)練中,Nemotron-CC展現(xiàn)出卓越的性能,尤其在MMLU等任務(wù)上,相比DCLM和Llama 3.1模型,顯著提高了模型的準(zhǔn)確率。Nemotron-CC的推出為大型語言模型的訓(xùn)練提供了更加豐富和多樣化的數(shù)據(jù)資源。
Nemotron-CC的主要功能
- 提供高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集:Nemotron-CC為大型語言模型(LLMs)提供了高品質(zhì)和大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),特別適合于長序列訓(xùn)練,滿足15T tokens的需求。
- 優(yōu)化數(shù)據(jù)量與質(zhì)量:在保證數(shù)據(jù)質(zhì)量的基礎(chǔ)上,顯著增加數(shù)據(jù)集的規(guī)模,包含更多獨特的真實tokens,從而提升模型在長序列訓(xùn)練中的表現(xiàn)。
- 助力模型性能提升:研究表明,利用Nemotron-CC訓(xùn)練的模型在多項基準(zhǔn)測試中表現(xiàn)出色,特別是在MMLU等任務(wù)上,相較于其他現(xiàn)有數(shù)據(jù)集,能夠顯著提高模型的準(zhǔn)確性。
Nemotron-CC的技術(shù)原理
- 優(yōu)化文本提取:采用Justext作為HTML到文本的提取工具,以其在高質(zhì)量tokens提取中的優(yōu)越表現(xiàn),有效提升了數(shù)據(jù)集的初始質(zhì)量。
- 基于模型的質(zhì)量標(biāo)記:
- 分類器集成:構(gòu)建了三個具有不同高質(zhì)量偏好的質(zhì)量分類器,通過集成這些分類器,為所有文檔打分,并依據(jù)質(zhì)量得分對爬取的語料進(jìn)行分類。
- 質(zhì)量標(biāo)簽分配:進(jìn)一步對細(xì)粒度的質(zhì)量得分進(jìn)行聚類,劃分為五個下游任務(wù)的質(zhì)量類別,基于連續(xù)預(yù)訓(xùn)練和任務(wù)性能評估,為每個類別分配更為貼近實際性能的質(zhì)量標(biāo)簽。
- 合成數(shù)據(jù)生成:
- 低質(zhì)量數(shù)據(jù)重述:針對低質(zhì)量文檔,通過重述減少噪聲和錯誤,同時保留有用信息,采用Wikipedia風(fēng)格的提示對低質(zhì)量文檔進(jìn)行重述,有效降低錯誤率和冗余,提高文本格式化水平。
- 高質(zhì)量數(shù)據(jù)擴(kuò)展:對高質(zhì)量文檔,通過生成多樣化的問答對、提取和整理知識等方式,獲取更多獨特的tokens,豐富數(shù)據(jù)集內(nèi)容和多樣性。
- 數(shù)據(jù)集整合:
- 大規(guī)模數(shù)據(jù)合成:利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens,其中包括從低質(zhì)量文檔生成的3363億tokens和從高質(zhì)量文檔生成的1.5萬億tokens。
- 數(shù)據(jù)集構(gòu)建:將上述技術(shù)和方法應(yīng)用于Common Crawl的99個快照(CC-MAIN-2013-20至CC-MAIN-2024-30),構(gòu)建了6.3萬億tokens的數(shù)據(jù)集,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。
Nemotron-CC的項目地址
- 項目官網(wǎng):https://developer.nvidia.com/blog/announcing-nemotron-cc
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.02595
Nemotron-CC的應(yīng)用場景
- 預(yù)訓(xùn)練大型語言模型:適用于長序列訓(xùn)練(如15T tokens),提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
- 微調(diào)與特定任務(wù)適應(yīng):便于模型在多任務(wù)學(xué)習(xí)和特定領(lǐng)域中快速適應(yīng),提升任務(wù)完成度。
- 文本生成任務(wù):用于生成高質(zhì)量的文本,如新聞報道、故事創(chuàng)作,并提升對話系統(tǒng)的自然流暢性。
- 研究與開發(fā):促進(jìn)模型架構(gòu)和訓(xùn)練方法的探索,提供基準(zhǔn)測試資源以支持研究。
- 教育與培訓(xùn):生成教育資源,輔助語言學(xué)習(xí),豐富教育內(nèi)容的多樣性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章

暫無評論...