<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek、OpenAI、Kimi視覺推理到底哪家強?港中文MMLab推出推理基準MME-COT

        AIGC動態3個月前發布 量子位
        476 0 0

        全方位理解多模態模型CoT能力

        DeepSeek、OpenAI、Kimi視覺推理到底哪家強?港中文MMLab推出推理基準MME-COT

        原標題:DeepSeek、OpenAI、Kimi視覺推理到底哪家強?港中文MMLab推出推理基準MME-COT
        文章來源:量子位
        內容字數:6742字

        港中文MMLab提出MME-CoT:全面評估大型多模態模型視覺推理能力

        本文總結了港中文MMLab研究者提出的MME-CoT基準測試,該基準旨在全面評估大型多模態模型(LMMs)的視覺推理能力。MME-CoT超越了以往僅評估最終答案正確性的方法,細粒度地評估了視覺鏈式思維(CoT)的質量、魯棒性和效率。

        1. MME-CoT的創新之處

        與以往LMM基準測試不同,MME-CoT提出了一個嚴格的多方面評估框架,著重研究視覺CoT的不同方面。它包含數學、科學、OCR、邏輯、時空和通用場景六大領域,涵蓋17個子類,共包含1130個精選問題和3865個關鍵步驟標注。MME-CoT區分了感知任務和推理任務,避免了以往基準測試中兩類任務混淆的問題。

        2. 細粒度的評估指標

        MME-CoT設計了三個評估方向,分別回答三個關鍵問題:

        1. CoT的質量: 使用召回率(Recall)和精確率(Precision)兩個指標評估CoT步驟的有用性和準確性,避免了模型通過錯誤邏輯得到正確答案的夸大現象。GPT-4被用來輔助評估。
        2. CoT的魯棒性: 通過比較感知任務和推理任務在直接回答和CoT回答兩種Prompt下的表現,評估CoT對不同任務類型的穩定性(Stability)和有效性(Efficacy),考察CoT是否會對感知任務產生負面影響。
        3. CoT的效率: 使用相關比例(Relevance Rate)和反思質量(Reflection Quality)兩個指標評估CoT的推理效率,考察長CoT中步驟的相關性和反思步驟的有效性。

        3. 實驗結果與結論

        研究者們在MME-CoT上測試了13個現有的LMM和兩個最新的LLM (DeepSeek-R1和o3-mini)。實驗結果顯示:

        1. CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
        2. CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
        3. CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

        此外,研究還發現:

        1. 長CoT并不一定包含所有關鍵步驟,模型有時會跳過中間步驟得出正確答案。
        2. 更大的模型參數量通常能更好地掌握推理能力。
        3. 模型的反思錯誤類型多樣,包括無效反思、不完整、重復和干擾等。

        4. MME-CoT的意義

        MME-CoT為評估LMM的視覺推理能力提供了一個系統化的基準,指明了該領域的關鍵發展方向。它揭示了現有模型在推理質量、魯棒性和計算效率方面的不足,為后續研究奠定了重要基礎,將推動LMM實現更強大、更可靠的視覺推理能力。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 免费人成动漫在线播放r18| 亚洲中文字幕久久精品无码A| 一级人做人爰a全过程免费视频| 国产精品免费电影| 色欲色欲天天天www亚洲伊| 免费人成无码大片在线观看| 综合偷自拍亚洲乱中文字幕| av无码东京热亚洲男人的天堂| 免费在线人人电影网| 国产亚洲精品影视在线产品| 十八禁视频在线观看免费无码无遮挡骂过| 中文字幕亚洲无线码a| 鲁丝片一区二区三区免费 | 免费看国产一级特黄aa大片| 欧美亚洲国产SUV| 亚洲国产天堂久久久久久| 国产精品玖玖美女张开腿让男人桶爽免费看 | 国产精品亚洲а∨无码播放| 日韩免费人妻AV无码专区蜜桃| 亚洲国产综合精品| 日本无吗免费一二区| fc2免费人成为视频| 久久久久亚洲AV成人片| 三年片在线观看免费观看高清电影| 久久亚洲中文无码咪咪爱| 久久久久亚洲av毛片大| 57pao国产成视频免费播放| 亚洲美国产亚洲AV| 精品亚洲综合在线第一区| 国产大片免费网站不卡美女| 羞羞网站免费观看| 亚洲av最新在线网址| 欧美好看的免费电影在线观看| 特级毛片aaaa免费观看| 99久久亚洲精品无码毛片| 日韩免费观看视频| 日韩插啊免费视频在线观看| 美女免费视频一区二区三区| 久久精品亚洲一区二区三区浴池| 四虎影视在线永久免费观看| 99精品视频免费在线观看|