<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        MM-Eureka

        AI工具5個月前更新 AI工具集
        598 0 0

        MM-Eureka – 上海AI Lab聯合上交大等推出的多模態推理模型

        MM-Eureka 是一個由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究者們共同研發的多模態推理模型。該模型利用基于規則的大規模強化學習(RL),將單模態推理中的關鍵特性,如回答長度的穩定增長、準確率獎勵和視覺頓悟時刻,成功擴展至多模態場景。

        MM-Eureka是什么

        MM-Eureka 是一個專門設計的多模態推理模型,開發團隊由上海人工智能實驗室、上海創智學院、上海交通大學和香港大學的研究人員組成。該模型通過規則驅動的大規模強化學習(RL),將單模態推理中的重要特性(例如穩定的回答長度增長、準確率獎勵以及視覺頓悟時刻)遷移至多模態環境中。

        MM-Eureka 提供了兩個核心模型:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分別基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。僅使用 54,000 張圖文數據進行規則型強化學習訓練,平均性能便超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero-38B 僅利用 8,000 張圖文數學推理數據,在自主構建的 K12 基準測試中超過了指令模型 8.2%,在 MathVerse 上的表現也相當出色。

        MM-Eureka

        MM-Eureka的主要功能

        • 多模態推理能力:MM-Eureka 能夠有效處理文本和視覺信息,擴展了大規模基于規則的強化學習(RL)至多模態推理領域。
        • 復現關鍵特性:該模型成功在多模態空間中復現了文本 RL 系統(如 DeepSeek-R1)的核心特性,包括準確率獎勵和響應長度的穩定增長,以及反思行為的自發涌現。
        • 數據高效性:在僅使用 54,000 張圖文數據進行規則型 RL 訓練的情況下,MM-Eureka 的平均性能超過了使用 1,000,000 張數據的 MPO 模型,整體基準準確率與使用 12,000,000 張數據進行 CoT SFT 訓練的模型相當。

        MM-Eureka的技術原理

        • 基于規則的大規模強化學習框架:MM-Eureka 基于 OpenRLHF 開發了一個高效且可擴展的多模態大規模強化學習框架,支持多種模型及 RL 算法,使得模型能夠在多模態環境中進行有效訓練,并成功復現了 DeepSeek-R1 的關鍵特性。
        • 數據過濾與穩定訓練:團隊發現,數據選擇對于穩定的 RL 訓練至關重要,基于難度的數據過濾策略對訓練的穩定性起到了關鍵作用。
        • 視覺頓悟時刻(Visual aha-moment):MM-Eureka 在訓練過程中展現了類似 DeepSeek-R1 的視覺頓悟時刻,表現為模型學會反思與回溯,重新審視圖像中的關鍵信息。
        • 極簡的強化學習設計:在 MM-Eureka 中,極簡的 RL 設計被證明是有效的。實驗表明,添加 KL 散度會限制模型探索,導致無法觀察到響應長度的提升,因此采用簡單的獎勵函數(如準確性獎勵和格式獎勵),結合難度基礎的數據過濾策略進行穩定訓練。
        • 高效的數據利用:MM-Eureka 顯示出極高的數據效率。僅用 54,000 張圖文數據進行規則型強化學習訓練,其平均性能即超越了使用 1,000,000 張數據的 MPO 模型。MM-Eureka-Zero 僅利用 8,000 張圖文數學推理數據(指令模型的 0.05%),在自建的 K12 基準測試中超越指令模型 8.2%,在 MathVerse 上表現相當,表明在多模態推理領域,簡單的規則型 RL 設計可以顯著提升訓練效果,即使在數據量較少的情況下,也能達到與大規模訓練相當的性能。

        MM-Eureka的項目地址

        MM-Eureka的應用場景

        • 教育領域:通過強大的推理能力和反思機制,MM-Eureka 有助于學生更好地理解和解決復雜數學問題。
        • 增強現實(AR)和虛擬現實(VR):在 AR 和 VR 場景中,結合視覺與語言信息,MM-Eureka 可以提供更沉浸式和交互式的用戶體驗。
        • 數據分析和決策支持:MM-Eureka 的多模態推理能力使其在數據分析和決策支持方面表現優異,能夠處理復雜的圖文數據,幫助用戶從大量信息中提取關鍵信息,做出更明智的決策。
        • 自動化和智能助手:作為智能助手的核心技術,MM-Eureka 能為用戶提供更智能和自然的交互體驗。
        • 游戲和娛樂:在游戲和娛樂領域,MM-Eureka 的多模態推理能力可以用于研發更智能的非玩家角色(NPC)和交互式劇情。

        常見問題

        • MM-Eureka支持哪些類型的輸入數據?MM-Eureka 支持文本和視覺信息的多模態輸入,能夠處理復雜的圖文數據。
        • 如何獲取MM-Eureka的源代碼?您可以訪問其Github倉庫 [MM-Eureka GitHub](https://github.com/ModalMinds/MM-EUREKA) 下載源代碼。
        • MM-Eureka的性能如何?MM-Eureka 展現出優秀的性能,僅使用少量數據就能超越使用大量數據訓練的模型。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 无码av免费网站| 精品女同一区二区三区免费播放| 99久久99这里只有免费的精品| 国产麻豆免费观看91| 一区二区免费视频| 亚洲va无码手机在线电影| 亚洲人成网www| 亚洲AV无码专区在线亚| 亚洲网站在线免费观看| 中文字幕亚洲精品| 国产精品免费观看| 亚洲一区二区三区成人网站| GOGOGO免费观看国语| 午夜老司机免费视频| 亚洲av无码成人影院一区| 免费a级毛片无码a∨性按摩| 亚洲伊人久久大香线蕉结合| 国产亚洲精品免费视频播放| 女人18一级毛片免费观看| 久久精品国产亚洲av瑜伽| 亚洲JIZZJIZZ中国少妇中文| 2022年亚洲午夜一区二区福利| 91老湿机福利免费体验| 久久精品国产亚洲沈樵| 深夜免费在线视频| 国产一精品一aⅴ一免费| 一个人看的免费观看日本视频www| 国产AV无码专区亚洲AV手机麻豆| 亚洲乱码中文字幕在线| 亚洲国产精品视频| 久久久久久成人毛片免费看| 亚洲日本人成中文字幕| 亚洲精品无码久久不卡| 特级毛片A级毛片100免费播放| 亚洲午夜久久久久久久久久| 人与禽交免费网站视频| 国产成人亚洲精品电影| 亚洲AV日韩AV永久无码绿巨人| 中文字幕乱码一区二区免费| 亚洲丰满熟女一区二区v| 久草免费在线观看视频|