MM-Eureka

MM-Eureka – 上海AI Lab聯(lián)合上交大等推出的多模態(tài)推理模型

MM-Eureka 是一個由上海人工智能實驗室、上海創(chuàng)智學(xué)院、上海交通大學(xué)和香港大學(xué)的研究者們共同研發(fā)的多模態(tài)推理模型。該模型利用基于規(guī)則的大規(guī)模強(qiáng)化學(xué)習(xí)（RL），將單模態(tài)推理中的關(guān)鍵特性，如回答長度的穩(wěn)定增長、準(zhǔn)確率獎勵和視覺頓悟時刻，成功擴(kuò)展至多模態(tài)場景。

MM-Eureka是什么

MM-Eureka 是一個專門設(shè)計的多模態(tài)推理模型，開發(fā)團(tuán)隊由上海人工智能實驗室、上海創(chuàng)智學(xué)院、上海交通大學(xué)和香港大學(xué)的研究人員組成。該模型通過規(guī)則驅(qū)動的大規(guī)模強(qiáng)化學(xué)習(xí)（RL），將單模態(tài)推理中的重要特性（例如穩(wěn)定的回答長度增長、準(zhǔn)確率獎勵以及視覺頓悟時刻）遷移至多模態(tài)環(huán)境中。

MM-Eureka 提供了兩個核心模型：MM-Eureka-8B 和 MM-Eureka-Zero-38B，分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型強(qiáng)化學(xué)習(xí)訓(xùn)練，平均性能便超越了使用 1,000,000 張數(shù)據(jù)的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數(shù)學(xué)推理數(shù)據(jù)，在自主構(gòu)建的 K12 基準(zhǔn)測試中超過了指令模型 8.2%，在 MathVerse 上的表現(xiàn)也相當(dāng)出色。

MM-Eureka

MM-Eureka的主要功能

多模態(tài)推理能力：MM-Eureka 能夠有效處理文本和視覺信息，擴(kuò)展了大規(guī)模基于規(guī)則的強(qiáng)化學(xué)習(xí)（RL）至多模態(tài)推理領(lǐng)域。
復(fù)現(xiàn)關(guān)鍵特性：該模型成功在多模態(tài)空間中復(fù)現(xiàn)了文本 RL 系統(tǒng)（如 DeepSeek-R1）的核心特性，包括準(zhǔn)確率獎勵和響應(yīng)長度的穩(wěn)定增長，以及反思行為的自發(fā)涌現(xiàn)。
數(shù)據(jù)高效性：在僅使用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型 RL 訓(xùn)練的情況下，MM-Eureka 的平均性能超過了使用 1,000,000 張數(shù)據(jù)的 MPO 模型，整體基準(zhǔn)準(zhǔn)確率與使用 12,000,000 張數(shù)據(jù)進(jìn)行 CoT SFT 訓(xùn)練的模型相當(dāng)。

MM-Eureka的技術(shù)原理

基于規(guī)則的大規(guī)模強(qiáng)化學(xué)習(xí)框架：MM-Eureka 基于 OpenRLHF 開發(fā)了一個高效且可擴(kuò)展的多模態(tài)大規(guī)模強(qiáng)化學(xué)習(xí)框架，支持多種模型及 RL 算法，使得模型能夠在多模態(tài)環(huán)境中進(jìn)行有效訓(xùn)練，并成功復(fù)現(xiàn)了 DeepSeek-R1 的關(guān)鍵特性。
數(shù)據(jù)過濾與穩(wěn)定訓(xùn)練：團(tuán)隊發(fā)現(xiàn)，數(shù)據(jù)選擇對于穩(wěn)定的 RL 訓(xùn)練至關(guān)重要，基于難度的數(shù)據(jù)過濾策略對訓(xùn)練的穩(wěn)定性起到了關(guān)鍵作用。
視覺頓悟時刻（Visual aha-moment）：MM-Eureka 在訓(xùn)練過程中展現(xiàn)了類似 DeepSeek-R1 的視覺頓悟時刻，表現(xiàn)為模型學(xué)會反思與回溯，重新審視圖像中的關(guān)鍵信息。
極簡的強(qiáng)化學(xué)習(xí)設(shè)計：在 MM-Eureka 中，極簡的 RL 設(shè)計被證明是有效的。實驗表明，添加 KL 散度會限制模型探索，導(dǎo)致無法觀察到響應(yīng)長度的提升，因此采用簡單的獎勵函數(shù)（如準(zhǔn)確性獎勵和格式獎勵），結(jié)合難度基礎(chǔ)的數(shù)據(jù)過濾策略進(jìn)行穩(wěn)定訓(xùn)練。
高效的數(shù)據(jù)利用：MM-Eureka 顯示出極高的數(shù)據(jù)效率。僅用 54,000 張圖文數(shù)據(jù)進(jìn)行規(guī)則型強(qiáng)化學(xué)習(xí)訓(xùn)練，其平均性能即超越了使用 1,000,000 張數(shù)據(jù)的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數(shù)學(xué)推理數(shù)據(jù)（指令模型的 0.05%），在自建的 K12 基準(zhǔn)測試中超越指令模型 8.2%，在 MathVerse 上表現(xiàn)相當(dāng)，表明在多模態(tài)推理領(lǐng)域，簡單的規(guī)則型 RL 設(shè)計可以顯著提升訓(xùn)練效果，即使在數(shù)據(jù)量較少的情況下，也能達(dá)到與大規(guī)模訓(xùn)練相當(dāng)?shù)男阅堋?/li>

MM-Eureka的項目地址

Github倉庫：https://github.com/ModalMinds/MM-EUREKA
arXiv技術(shù)論文：https://arxiv.org/pdf/2503.07365

MM-Eureka的應(yīng)用場景

教育領(lǐng)域：通過強(qiáng)大的推理能力和反思機(jī)制，MM-Eureka 有助于學(xué)生更好地理解和解決復(fù)雜數(shù)學(xué)問題。
增強(qiáng)現(xiàn)實（AR）和虛擬現(xiàn)實（VR）：在 AR 和 VR 場景中，結(jié)合視覺與語言信息，MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
數(shù)據(jù)分析和決策支持：MM-Eureka 的多模態(tài)推理能力使其在數(shù)據(jù)分析和決策支持方面表現(xiàn)優(yōu)異，能夠處理復(fù)雜的圖文數(shù)據(jù)，幫助用戶從大量信息中提取關(guān)鍵信息，做出更明智的決策。
自動化和智能助手：作為智能助手的核心技術(shù)，MM-Eureka 能為用戶提供更智能和自然的交互體驗。
游戲和娛樂：在游戲和娛樂領(lǐng)域，MM-Eureka 的多模態(tài)推理能力可以用于研發(fā)更智能的非玩家角色（NPC）和交互式劇情。

常見問題

MM-Eureka支持哪些類型的輸入數(shù)據(jù)？MM-Eureka 支持文本和視覺信息的多模態(tài)輸入，能夠處理復(fù)雜的圖文數(shù)據(jù)。
如何獲取MM-Eureka的源代碼？您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
MM-Eureka的性能如何？MM-Eureka 展現(xiàn)出優(yōu)秀的性能，僅使用少量數(shù)據(jù)就能超越使用大量數(shù)據(jù)訓(xùn)練的模型。

閱讀原文

# AI工具 # AI項目和框架 # 個性化推薦系統(tǒng)# 實時監(jiān)控儀表盤 # 智能數(shù)據(jù)分析 # 自動化報告生成 # 自然語言處理功能

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

MM-Eureka

MM-Eureka – 上海AI Lab聯(lián)合上交大等推出的多模態(tài)推理模型

MM-Eureka是什么

MM-Eureka的主要功能

MM-Eureka的技術(shù)原理

MM-Eureka的項目地址

MM-Eureka的應(yīng)用場景

常見問題

Command A

Kuli Kuli

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？