一萬億token！34億張圖像，擴大10倍！史上最大開源多模態數據集MINT-1T發布！

AIGC動態1年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：一萬億token！34億張圖像，擴大10倍！史上最大開源多模態數據集MINT-1T發布！
關鍵字：數據,圖像,報告,模型,文本
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 谷雨龍澤眾所周知，現在訓練AI最需要的是什么？
數據，數據，還是數據。——畢竟只有讓AI學好了，AI才能好好地回答你的問題，否則就會答非所問。
但是喂給AI的數據，現在和GPU一樣，成了緊缺資源。前不久有人試圖用AI自己造的數據來喂AI，結果發現這樣的話AI越學越笨，最后連他親媽來了都不忍直視的那種。
不過，最近來了個天大的好消息——MINT-1T來了！
MINT-1T是一個包含一萬億token的多模態預訓練數據集，它是史上最大的同類數據集，并且比以前的開源數據集更加多樣化。
把開源多模態數據集的規模擴展了10倍，達到萬億token！
數據集來源于HTML、PDF和ArXiv論文等不同源，都是精挑細選的好貨，媽媽再也不用擔心我的AI吃不飽了！
論文標題： MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
論文鏈接： https://arxiv.org/abs/2406.11271
GitHub鏈接： https:

原文鏈接：一萬億token！34億張圖像，擴大10倍！史上最大開源多模態數據集MINT-1T發布！