<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Nemotron-CC

        AI工具4個月前發(fā)布 AI工具集
        583 0 0

        Nemotron-CC – 英偉達(dá)推出的大型預(yù)訓(xùn)練數(shù)據(jù)集

        Nemotron-CC是什么

        Nemotron-CC是NVIDIA團(tuán)隊開發(fā)的一款大型預(yù)訓(xùn)練數(shù)據(jù)集,旨在將Common Crawl的數(shù)據(jù)轉(zhuǎn)化為適合長序列模型訓(xùn)練的高質(zhì)量語料。該數(shù)據(jù)集通過結(jié)合分類器集成、合成數(shù)據(jù)重述和降低對啟發(fā)式過濾器的依賴等技術(shù),成功實現(xiàn)了數(shù)據(jù)量與質(zhì)量之間的優(yōu)化平衡。Nemotron-CC包含6.3萬億個tokens,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。在短期(1T tokens)和長期(15T tokens)訓(xùn)練中,Nemotron-CC展現(xiàn)出卓越的性能,尤其在MMLU等任務(wù)上,相比DCLM和Llama 3.1模型,顯著提高了模型的準(zhǔn)確率。Nemotron-CC的推出為大型語言模型的訓(xùn)練提供了更加豐富和多樣化的數(shù)據(jù)資源。

        Nemotron-CC

        Nemotron-CC的主要功能

        • 提供高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集:Nemotron-CC為大型語言模型(LLMs)提供了高品質(zhì)和大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),特別適合于長序列訓(xùn)練,滿足15T tokens的需求。
        • 優(yōu)化數(shù)據(jù)量與質(zhì)量:在保證數(shù)據(jù)質(zhì)量的基礎(chǔ)上,顯著增加數(shù)據(jù)集的規(guī)模,包含更多獨特的真實tokens,從而提升模型在長序列訓(xùn)練中的表現(xiàn)。
        • 助力模型性能提升:研究表明,利用Nemotron-CC訓(xùn)練的模型在多項基準(zhǔn)測試中表現(xiàn)出色,特別是在MMLU等任務(wù)上,相較于其他現(xiàn)有數(shù)據(jù)集,能夠顯著提高模型的準(zhǔn)確性。

        Nemotron-CC的技術(shù)原理

        • 優(yōu)化文本提取:采用Justext作為HTML到文本的提取工具,以其在高質(zhì)量tokens提取中的優(yōu)越表現(xiàn),有效提升了數(shù)據(jù)集的初始質(zhì)量。
        • 基于模型的質(zhì)量標(biāo)記
          • 分類器集成:構(gòu)建了三個具有不同高質(zhì)量偏好的質(zhì)量分類器,通過集成這些分類器,為所有文檔打分,并依據(jù)質(zhì)量得分對爬取的語料進(jìn)行分類。
          • 質(zhì)量標(biāo)簽分配:進(jìn)一步對細(xì)粒度的質(zhì)量得分進(jìn)行聚類,劃分為五個下游任務(wù)的質(zhì)量類別,基于連續(xù)預(yù)訓(xùn)練和任務(wù)性能評估,為每個類別分配更為貼近實際性能的質(zhì)量標(biāo)簽。
        • 合成數(shù)據(jù)生成
          • 低質(zhì)量數(shù)據(jù)重述:針對低質(zhì)量文檔,通過重述減少噪聲和錯誤,同時保留有用信息,采用Wikipedia風(fēng)格的提示對低質(zhì)量文檔進(jìn)行重述,有效降低錯誤率和冗余,提高文本格式化水平。
          • 高質(zhì)量數(shù)據(jù)擴(kuò)展:對高質(zhì)量文檔,通過生成多樣化的問答對、提取和整理知識等方式,獲取更多獨特的tokens,豐富數(shù)據(jù)集內(nèi)容和多樣性。
        • 數(shù)據(jù)集整合
          • 大規(guī)模數(shù)據(jù)合成:利用Mistral NeMo 12B模型生成超過1.8萬億個合成tokens,其中包括從低質(zhì)量文檔生成的3363億tokens和從高質(zhì)量文檔生成的1.5萬億tokens。
          • 數(shù)據(jù)集構(gòu)建:將上述技術(shù)和方法應(yīng)用于Common Crawl的99個快照(CC-MAIN-2013-20至CC-MAIN-2024-30),構(gòu)建了6.3萬億tokens的數(shù)據(jù)集,其中4.4萬億為全球去重的原始tokens,1.9萬億為合成生成的tokens。

        Nemotron-CC的項目地址

        Nemotron-CC的應(yīng)用場景

        • 預(yù)訓(xùn)練大型語言模型:適用于長序列訓(xùn)練(如15T tokens),提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
        • 微調(diào)與特定任務(wù)適應(yīng):便于模型在多任務(wù)學(xué)習(xí)和特定領(lǐng)域中快速適應(yīng),提升任務(wù)完成度。
        • 文本生成任務(wù):用于生成高質(zhì)量的文本,如新聞報道、故事創(chuàng)作,并提升對話系統(tǒng)的自然流暢性。
        • 研究與開發(fā):促進(jìn)模型架構(gòu)和訓(xùn)練方法的探索,提供基準(zhǔn)測試資源以支持研究。
        • 教育與培訓(xùn):生成教育資源,輔助語言學(xué)習(xí),豐富教育內(nèi)容的多樣性。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 911精品国产亚洲日本美国韩国| 成人免费视频69| 免费成人午夜视频| 亚洲中文字幕无码久久| 91精品国产免费久久久久久青草| 亚洲国产成人久久综合一| 免费国产成人午夜在线观看| 精品国产_亚洲人成在线高清| 久久免费视频一区| 久久亚洲精品成人| 114级毛片免费观看| 亚洲人成片在线观看| 成人免费视频软件网站| 亚洲国产成人久久一区二区三区| 免费观看的a级毛片的网站| 久久亚洲精品高潮综合色a片| 国产yw855.c免费视频| 一级毛片免费视频网站| 亚洲成色www久久网站夜月| 57pao一国产成视频永久免费| 亚洲伊人久久大香线蕉结合| 日本高清免费网站| 一区二区三区免费看| 亚洲国产精品国自产电影| 一个人在线观看视频免费| 亚洲AV网一区二区三区| 亚洲中文久久精品无码ww16| 久久久久免费看成人影片| 亚洲欧美日韩综合久久久久| 亚洲国产成人久久一区久久| 最新国产乱人伦偷精品免费网站| 亚洲欧洲日产韩国在线| 国产成人3p视频免费观看| a毛片视频免费观看影院| 67194在线午夜亚洲| 亚洲日韩在线中文字幕第一页| 无码一区二区三区免费| 亚洲大码熟女在线观看| 亚洲精品无码av人在线观看| 免费人成在线视频| 福利免费在线观看|