InfiMM-WebMath-40B 是由字節跳動與中國科學院聯合開源的一個超大規模多模態數據集,專注于提升多模態模型在數學領域的圖文混合推理能力。該數據集從 Common Crawl 中提取,經過嚴格的篩選和清洗,最終形成了包含 2400 萬個網頁、8500 萬個圖像 URL 和 400 億個文本標記的豐富內容,涵蓋了廣泛的數學和科學主題。InfiMM-WebMath-40B 在 MathVerse 和 We-Math 等基準測試中取得了顯著的成績,展現了其在數學推理方面的強大能力。
InfiMM-WebMath-40B是什么
InfiMM-WebMath-40B 是一個由字節跳動與中國科學院共同推出的開源多模態數據集,旨在提升多模態模型在數學推理中的表現。該數據集以 Common Crawl 為基礎,經過嚴格的篩選、清理和標注,涵蓋了 2400 萬個網頁、8500 萬個圖像 URL 以及 400 億個文本標記,提供了豐富的數學及科學相關內容。通過使用 InfiMM-WebMath-40B,模型在數學推理能力方面得到了顯著提升,并在多個基準測試中表現優異。

InfiMM-WebMath-40B的主要功能
- 增強數學推理能力:InfiMM-WebMath-40B 包含豐富的數學和科學相關數據,包括文本、公式、符號和圖像,幫助多模態大語言模型(MLLMs)深入學習數學知識,從而提升其在數學推理方面的表現。
- 理解多模態信息:作為一個多模態數據集,它結合了文本和圖像數據,助力 MLLMs 學習如何整合這兩種信息,以更好地理解復雜的數學概念及問題。
- 促進模型應用:基于 InfiMM-WebMath-40B 進行預訓練的 MLLMs,可以更有效地應用于數學相關的應用場景,例如數學題庫、學習工具和數學論文的閱讀與理解等。
InfiMM-WebMath-40B的技術原理
- 數據來源:該數據集基于 Common Crawl,包含大量互聯網公開網頁內容。
- 數據篩選:通過關鍵詞匹配篩選相關頁面,確保每個文檔中至少包含一定數量的 LaTeX 符號。同時,通過 fastText 進行語言過濾,只保留中英文內容。
- 數據提取:使用 Trafilatura 庫提取文本內容,并分析網頁中的圖像 URL,以獲取與數學主題相關的圖像。
- 數據清洗:利用 MinHash 等技術進行去重,并采用基于規則的過濾方法,去除包含“lorem ipsum”的短文檔及不適當內容的文檔。
- 數據標注:使用 LLaMA3-70B-Instruct 模型對數學內容進行評分,并利用 fastText 分類器進行精確過濾。
InfiMM-WebMath-40B的項目地址
- HuggingFace模型庫:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B
- arXiv技術論文:https://arxiv.org/pdf/2409.12568
InfiMM-WebMath-40B的應用場景
- 數學題庫與評估工具:開發者可以利用 MLLMs 自動生成數學題目、評估學生答案并提供反饋,從而構建智能化的數學題庫和評估工具。
- 數學學習工具與平臺:幫助 MLLMs 更深入地理解數學概念和公式,開發更智能的學習工具和平臺,例如提供個性化學習建議和解答學生疑問。
- 數學論文閱讀和理解:提升 MLLMs 對數學論文的理解能力,開發自動摘要、翻譯和解釋數學論文的工具。
- 數學研究:為數學研究提供數據支持,應用于訓練數學模型和分析數學數據等。
- 其他科學領域:InfiMM-WebMath-40B 也包含物理、化學、生物等科學內容,幫助 MLLMs 理解相關概念、公式和圖像,支持科學研究與應用。
常見問題
關于 InfiMM-WebMath-40B 的具體使用和技術細節,歡迎訪問我們的項目頁面獲取更多信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號