一萬(wàn)億token!34億張圖像,擴(kuò)大10倍!史上最大開(kāi)源多模態(tài)數(shù)據(jù)集MINT-1T發(fā)布!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:一萬(wàn)億token!34億張圖像,擴(kuò)大10倍!史上最大開(kāi)源多模態(tài)數(shù)據(jù)集MINT-1T發(fā)布!
關(guān)鍵字:數(shù)據(jù),圖像,報(bào)告,模型,文本
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 谷雨龍澤眾所周知,現(xiàn)在訓(xùn)練AI最需要的是什么?
數(shù)據(jù),數(shù)據(jù),還是數(shù)據(jù)?!吘怪挥凶孉I學(xué)好了,AI才能好好地回答你的問(wèn)題,否則就會(huì)答非所問(wèn)。
但是喂給AI的數(shù)據(jù),現(xiàn)在和GPU一樣,成了緊缺資源。前不久有人試圖用AI自己造的數(shù)據(jù)來(lái)喂AI,結(jié)果發(fā)現(xiàn)這樣的話(huà)AI越學(xué)越笨,最后連他親媽來(lái)了都不忍直視的那種。
不過(guò),最近來(lái)了個(gè)天大的好消息——MINT-1T來(lái)了!
MINT-1T是一個(gè)包含一萬(wàn)億token的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集,它是史上最大的同類(lèi)數(shù)據(jù)集,并且比以前的開(kāi)源數(shù)據(jù)集更加多樣化。
把開(kāi)源多模態(tài)數(shù)據(jù)集的規(guī)模擴(kuò)展了10倍,達(dá)到萬(wàn)億token!
數(shù)據(jù)集來(lái)源于HTML、PDF和ArXiv論文等不同源,都是精挑細(xì)選的好貨,媽媽再也不用擔(dān)心我的AI吃不飽了!
論文標(biāo)題: MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
論文鏈接: https://arxiv.org/abs/2406.11271
GitHub鏈接: https:
原文鏈接:一萬(wàn)億token!34億張圖像,擴(kuò)大10倍!史上最大開(kāi)源多模態(tài)數(shù)據(jù)集MINT-1T發(fā)布!
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: