MM-Eureka – 上海AI Lab聯(lián)合上交大等推出的多模態(tài)推理模型
MM-Eureka 是一個由上海人工智能實驗室、上海創(chuàng)智學(xué)院、上海交通大學(xué)和香港大學(xué)的研究者們共同研發(fā)的多模態(tài)推理模型。該模型利用基于規(guī)則的大規(guī)模強(qiáng)化學(xué)習(xí)(RL),將單模態(tài)推理中的關(guān)鍵特性,如回答長度的穩(wěn)定增長、準(zhǔn)確率獎勵和視覺頓悟時刻,成功擴(kuò)展至多模態(tài)場景。
MM-Eureka是什么
MM-Eureka 是一個專門設(shè)計的多模態(tài)推理模型,開發(fā)團(tuán)隊由上海人工智能實驗室、上海創(chuàng)智學(xué)院、上海交通大學(xué)和香港大學(xué)的研究人員組成。該模型通過規(guī)則驅(qū)動的大規(guī)模強(qiáng)化學(xué)習(xí)(RL),將單模態(tài)推理中的重要特性(例如穩(wěn)定的回答長度增長、準(zhǔn)確率獎勵以及視覺頓悟時刻)遷移至多模態(tài)環(huán)境中。
MM-Eureka 提供了兩個核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型強(qiáng)化學(xué)習(xí)訓(xùn)練,平均性能便超越了使用 1,000,000 張數(shù)據(jù)的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數(shù)學(xué)推理數(shù)據(jù),在自主構(gòu)建的 K12 基準(zhǔn)測試中超過了指令模型 8.2%,在 MathVerse 上的表現(xiàn)也相當(dāng)出色。
MM-Eureka的主要功能
- 多模態(tài)推理能力:MM-Eureka 能夠有效處理文本和視覺信息,擴(kuò)展了大規(guī)模基于規(guī)則的強(qiáng)化學(xué)習(xí)(RL)至多模態(tài)推理領(lǐng)域。
- 復(fù)現(xiàn)關(guān)鍵特性:該模型成功在多模態(tài)空間中復(fù)現(xiàn)了文本 RL 系統(tǒng)(如 DeepSeek-R1)的核心特性,包括準(zhǔn)確率獎勵和響應(yīng)長度的穩(wěn)定增長,以及反思行為的自發(fā)涌現(xiàn)。
- 數(shù)據(jù)高效性:在僅使用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型 RL 訓(xùn)練的情況下,MM-Eureka 的平均性能超過了使用 1,000,000 張數(shù)據(jù)的 MPO 模型,整體基準(zhǔn)準(zhǔn)確率與使用 12,000,000 張數(shù)據(jù)進(jìn)行 CoT SFT 訓(xùn)練的模型相當(dāng)。
MM-Eureka的技術(shù)原理
- 基于規(guī)則的大規(guī)模強(qiáng)化學(xué)習(xí)框架:MM-Eureka 基于 OpenRLHF 開發(fā)了一個高效且可擴(kuò)展的多模態(tài)大規(guī)模強(qiáng)化學(xué)習(xí)框架,支持多種模型及 RL 算法,使得模型能夠在多模態(tài)環(huán)境中進(jìn)行有效訓(xùn)練,并成功復(fù)現(xiàn)了 DeepSeek-R1 的關(guān)鍵特性。
- 數(shù)據(jù)過濾與穩(wěn)定訓(xùn)練:團(tuán)隊發(fā)現(xiàn),數(shù)據(jù)選擇對于穩(wěn)定的 RL 訓(xùn)練至關(guān)重要,基于難度的數(shù)據(jù)過濾策略對訓(xùn)練的穩(wěn)定性起到了關(guān)鍵作用。
- 視覺頓悟時刻(Visual aha-moment):MM-Eureka 在訓(xùn)練過程中展現(xiàn)了類似 DeepSeek-R1 的視覺頓悟時刻,表現(xiàn)為模型學(xué)會反思與回溯,重新審視圖像中的關(guān)鍵信息。
- 極簡的強(qiáng)化學(xué)習(xí)設(shè)計:在 MM-Eureka 中,極簡的 RL 設(shè)計被證明是有效的。實驗表明,添加 KL 散度會限制模型探索,導(dǎo)致無法觀察到響應(yīng)長度的提升,因此采用簡單的獎勵函數(shù)(如準(zhǔn)確性獎勵和格式獎勵),結(jié)合難度基礎(chǔ)的數(shù)據(jù)過濾策略進(jìn)行穩(wěn)定訓(xùn)練。
- 高效的數(shù)據(jù)利用:MM-Eureka 顯示出極高的數(shù)據(jù)效率。僅用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型強(qiáng)化學(xué)習(xí)訓(xùn)練,其平均性能即超越了使用 1,000,000 張數(shù)據(jù)的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數(shù)學(xué)推理數(shù)據(jù)(指令模型的 0.05%),在自建的 K12 基準(zhǔn)測試中超越指令模型 8.2%,在 MathVerse 上表現(xiàn)相當(dāng),表明在多模態(tài)推理領(lǐng)域,簡單的規(guī)則型 RL 設(shè)計可以顯著提升訓(xùn)練效果,即使在數(shù)據(jù)量較少的情況下,也能達(dá)到與大規(guī)模訓(xùn)練相當(dāng)?shù)男阅堋?/li>
MM-Eureka的項目地址
- Github倉庫:https://github.com/ModalMinds/MM-EUREKA
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.07365
MM-Eureka的應(yīng)用場景
- 教育領(lǐng)域:通過強(qiáng)大的推理能力和反思機(jī)制,MM-Eureka 有助于學(xué)生更好地理解和解決復(fù)雜數(shù)學(xué)問題。
- 增強(qiáng)現(xiàn)實(AR)和虛擬現(xiàn)實(VR):在 AR 和 VR 場景中,結(jié)合視覺與語言信息,MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
- 數(shù)據(jù)分析和決策支持:MM-Eureka 的多模態(tài)推理能力使其在數(shù)據(jù)分析和決策支持方面表現(xiàn)優(yōu)異,能夠處理復(fù)雜的圖文數(shù)據(jù),幫助用戶從大量信息中提取關(guān)鍵信息,做出更明智的決策。
- 自動化和智能助手:作為智能助手的核心技術(shù),MM-Eureka 能為用戶提供更智能和自然的交互體驗。
- 游戲和娛樂:在游戲和娛樂領(lǐng)域,MM-Eureka 的多模態(tài)推理能力可以用于研發(fā)更智能的非玩家角色(NPC)和交互式劇情。
常見問題
- MM-Eureka支持哪些類型的輸入數(shù)據(jù)?MM-Eureka 支持文本和視覺信息的多模態(tài)輸入,能夠處理復(fù)雜的圖文數(shù)據(jù)。
- 如何獲取MM-Eureka的源代碼?您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
- MM-Eureka的性能如何?MM-Eureka 展現(xiàn)出優(yōu)秀的性能,僅使用少量數(shù)據(jù)就能超越使用大量數(shù)據(jù)訓(xùn)練的模型。