AIGC動態歡迎閱讀
原標題:一萬億token!34億張圖像,擴大10倍!史上最大開源多模態數據集MINT-1T發布!
關鍵字:數據,圖像,報告,模型,文本
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 谷雨龍澤眾所周知,現在訓練AI最需要的是什么?
數據,數據,還是數據?!吘怪挥凶孉I學好了,AI才能好好地回答你的問題,否則就會答非所問。
但是喂給AI的數據,現在和GPU一樣,成了緊缺資源。前不久有人試圖用AI自己造的數據來喂AI,結果發現這樣的話AI越學越笨,最后連他親媽來了都不忍直視的那種。
不過,最近來了個天大的好消息——MINT-1T來了!
MINT-1T是一個包含一萬億token的多模態預訓練數據集,它是史上最大的同類數據集,并且比以前的開源數據集更加多樣化。
把開源多模態數據集的規模擴展了10倍,達到萬億token!
數據集來源于HTML、PDF和ArXiv論文等不同源,都是精挑細選的好貨,媽媽再也不用擔心我的AI吃不飽了!
論文標題: MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
論文鏈接: https://arxiv.org/abs/2406.11271
GitHub鏈接: https:
原文鏈接:一萬億token!34億張圖像,擴大10倍!史上最大開源多模態數據集MINT-1T發布!
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...