CCI 3.0是智源研究院推出的一個龐大的中文互聯網語料庫,涵蓋了1000GB的數據集以及498GB的高質量子集CCI 3.0-HQ。與前一版本CCI 2.0相比,CCI 3.0的數據規模幾乎翻了一番,數據來源機構也增至20多家,從而顯著提高了數據的覆蓋廣度和代表性。
CCI 3.0是什么
CCI 3.0是由智源研究院發布的一項大型中文互聯網語料庫,包含1000GB的總數據集以及498GB的高質量子集CCI 3.0-HQ。相較于CCI 2.0,CCI 3.0在數據規模上幾乎翻倍,增加了20多家數據來源機構,極大地拓寬了數據的覆蓋面和代表性。該語料庫收錄了超過2.68億個網頁,涵蓋新聞、社交網絡、博客等多個領域。CCI 3.0對原始數據進行了詳盡的分類和標注,涉及語法、句法、教育背景等多個維度,篩選出高價值的數據。
CCI 3.0的主要功能
- 豐富的數據規模與來源:CCI 3.0的數據量達到1000GB,涵蓋了超過2.68億個網頁,內容涉及新聞、社交媒體、博客等多個領域。數據來源機構多達20余家,增強了數據的全面性和代表性。
- 精確的標注體系:CCI 3.0對原始數據進行了細致的分類和標注,涵蓋語法、句法、教育程度等十多個維度,以篩選出更具價值的數據。
- 高質量子集:CCI 3.0包括498GB的高質量子集CCI 3.0-HQ,該子集通過70B模型的自動標注和小型質量模型的訓練,確保能夠滿足各種行業和應用的需求。
- 嚴格的數據處理標準:在構建過程中,CCI 3.0采用了基于規則的過濾(如關鍵詞和垃圾信息過濾)、基于模型的過濾(如低質量內容過濾)等多種方法來確保數據的質量和安全性。
CCI 3.0的技術優勢
- 卓越的訓練效果:對比實驗顯示,基于不同數據集從零開始訓練的100B模型,CCI 3.0在中文語料和中英文混合訓練的效果上均優于其他數據集,特別是CCI 3.0 HQ的表現更為突出。
- 共建共享的理念:CCI 3.0的推出推動了數據的共建與共享,旨在構建一個高質量、高知識密度的中文數據集,為中國人工智能行業的發展貢獻力量。
- 便捷的獲取途徑:研究者和開發者可以通過Flopsera、Huggingface以及Datahub等平臺輕松下載CCI 3.0的數據集。
CCI 3.0的項目地址
CCI 3.0的應用場景
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...