InfiMM-WebMath-40B:超大規(guī)模多模態(tài)數(shù)據(jù)集驅(qū)動智能應(yīng)用的全新可能性
InfiMM-WebMath-40B 是由字節(jié)跳動與中國科學院聯(lián)合開源的一個超大規(guī)模多模態(tài)數(shù)據(jù)集,專注于提升多模態(tài)模型在數(shù)學領(lǐng)域的圖文混合推理能力。該數(shù)據(jù)集從 Common Crawl 中提取,經(jīng)過嚴格的篩選和清洗,最終形成了包含 2400 萬個網(wǎng)頁、8500 萬個圖像 URL 和 400 億個文本標記的豐富內(nèi)容,涵蓋了廣泛的數(shù)學和科學主題。InfiMM-WebMath-40B 在 MathVerse 和 We-Math 等基準測試中取得了顯著的成績,展現(xiàn)了其在數(shù)學推理方面的強大能力。
InfiMM-WebMath-40B是什么
InfiMM-WebMath-40B 是一個由字節(jié)跳動與中國科學院共同推出的開源多模態(tài)數(shù)據(jù)集,旨在提升多模態(tài)模型在數(shù)學推理中的表現(xiàn)。該數(shù)據(jù)集以 Common Crawl 為基礎(chǔ),經(jīng)過嚴格的篩選、清理和標注,涵蓋了 2400 萬個網(wǎng)頁、8500 萬個圖像 URL 以及 400 億個文本標記,提供了豐富的數(shù)學及科學相關(guān)內(nèi)容。通過使用 InfiMM-WebMath-40B,模型在數(shù)學推理能力方面得到了顯著提升,并在多個基準測試中表現(xiàn)優(yōu)異。
InfiMM-WebMath-40B的主要功能
- 增強數(shù)學推理能力:InfiMM-WebMath-40B 包含豐富的數(shù)學和科學相關(guān)數(shù)據(jù),包括文本、公式、符號和圖像,幫助多模態(tài)大語言模型(MLLMs)深入學習數(shù)學知識,從而提升其在數(shù)學推理方面的表現(xiàn)。
- 理解多模態(tài)信息:作為一個多模態(tài)數(shù)據(jù)集,它結(jié)合了文本和圖像數(shù)據(jù),助力 MLLMs 學習如何整合這兩種信息,以更好地理解復雜的數(shù)學概念及問題。
- 促進模型應(yīng)用:基于 InfiMM-WebMath-40B 進行預訓練的 MLLMs,可以更有效地應(yīng)用于數(shù)學相關(guān)的應(yīng)用場景,例如數(shù)學題庫、學習工具和數(shù)學論文的閱讀與理解等。
InfiMM-WebMath-40B的技術(shù)原理
- 數(shù)據(jù)來源:該數(shù)據(jù)集基于 Common Crawl,包含大量互聯(lián)網(wǎng)公開網(wǎng)頁內(nèi)容。
- 數(shù)據(jù)篩選:通過關(guān)鍵詞匹配篩選相關(guān)頁面,確保每個文檔中至少包含一定數(shù)量的 LaTeX 符號。同時,通過 fastText 進行語言過濾,只保留中英文內(nèi)容。
- 數(shù)據(jù)提取:使用 Trafilatura 庫提取文本內(nèi)容,并分析網(wǎng)頁中的圖像 URL,以獲取與數(shù)學主題相關(guān)的圖像。
- 數(shù)據(jù)清洗:利用 MinHash 等技術(shù)進行去重,并采用基于規(guī)則的過濾方法,去除包含“l(fā)orem ipsum”的短文檔及不適當內(nèi)容的文檔。
- 數(shù)據(jù)標注:使用 LLaMA3-70B-Instruct 模型對數(shù)學內(nèi)容進行評分,并利用 fastText 分類器進行精確過濾。
InfiMM-WebMath-40B的項目地址
- HuggingFace模型庫:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B
- arXiv技術(shù)論文:https://arxiv.org/pdf/2409.12568
InfiMM-WebMath-40B的應(yīng)用場景
- 數(shù)學題庫與評估工具:開發(fā)者可以利用 MLLMs 自動生成數(shù)學題目、評估學生答案并提供反饋,從而構(gòu)建智能化的數(shù)學題庫和評估工具。
- 數(shù)學學習工具與平臺:幫助 MLLMs 更深入地理解數(shù)學概念和公式,開發(fā)更智能的學習工具和平臺,例如提供個性化學習建議和解答學生疑問。
- 數(shù)學論文閱讀和理解:提升 MLLMs 對數(shù)學論文的理解能力,開發(fā)自動摘要、翻譯和解釋數(shù)學論文的工具。
- 數(shù)學研究:為數(shù)學研究提供數(shù)據(jù)支持,應(yīng)用于訓練數(shù)學模型和分析數(shù)學數(shù)據(jù)等。
- 其他科學領(lǐng)域:InfiMM-WebMath-40B 也包含物理、化學、生物等科學內(nèi)容,幫助 MLLMs 理解相關(guān)概念、公式和圖像,支持科學研究與應(yīng)用。
常見問題
關(guān)于 InfiMM-WebMath-40B 的具體使用和技術(shù)細節(jié),歡迎訪問我們的項目頁面獲取更多信息。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...