<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        PK OpenAI o1,國產模型在高難度數學和算法競賽的能力幾何?

        AIGC動態10個月前發布 AI科技評論
        496 0 0

        誰是 OpenAI o1 推理類模型方向的挑戰者?在當今人工智能迅猛發展的浪潮中,大模型的競爭愈發激烈,尤其是推理模型領域,成為眾多研究與評測的焦點。OpenAI 發布的 o1 系列模型曾掀起大模型革新的熱潮,深度學習模型在解決復雜問題上的能力日益提升,特別是在數學、物理等科學領域的應用中取得了顯著成就。而國產模型也在不斷崛起,試圖在這一領域占據重要地位。各類新型評測社區的出現,為模型的綜合能力的評估提供了參考,推動著模型的不斷優化與創新。對于這些模型的實際性能及其在特定任務上的適用性,學術界與工業界一直保持著高度關注。為了更準確地評價這些模型的能力,特別是它們在處理復雜推理問題時的表現,國內以上海交通大學、同濟大學等高校為主導的AGI-Eval組織了一系列嚴格而系統的評測活動。本研究將聚焦于其中一部分——數學與代碼競賽題目的評測結果,分析最新發布的推理類模型之間的差異以及它們各自的優勢所在,其中包括OpenAI的o1、上海人工智能實驗室的InternThinker-Alpha、DeepSeek的DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴QwQ-32B-Preview等最新模型。此次參評的推理模型和o1的推理鏈路比較類似,主要通過增加推理時間和推理tokens數量,模擬人類的思考和反思過程,顯著增強其推理能力。如下圖的推理策略,模型在解決問題時多采用鏈式推理策略,并對復雜任務進行自我糾錯,經過這樣的引導使模型在解決復雜任務時自發使用“回憶知識-解答”,“執行-反思”等策略組合,模型在解題過程中會花費更多時間和tokens進行推理,提高答題的成功率。InternThinker-Alpha發布的思考路徑圖評測重點考察推理模型在數學和代碼上的推理能力。考慮到現在的大模型已經具備很強的記憶力能力,當評測數據被直接開源,評測數據就很容易出現“數據穿越”的問題,因此AGI-Eval通過專業的方式收集數據,并于知名高校合作等方式構建了高質量的黑盒評測數據。1數學競賽題目評測與推理過程分析「高難度數學」評測用了來自全國高中數合競賽、美國數學邀請賽(AIME)、全國碩士研究生招生考試等多個來源的真實試題作為基準數據集。這些題目不僅涵蓋了廣泛的數學知識點,而且具有較高的難度系數,能夠有效測試模型的推理能力和解題技巧。從題型分布上看,各模型考研數學題正確率高于高中數學競賽題10%,提示考研數學題目難度相對簡單。評測過程中,各參評模型被要求完成所有給定題目,并記錄下其解答過程中的各項參數,包括但不限于推理時間、使用的token數量等。此外,為了保證評測結果的公平性和透明度,所有數據均經過了嚴格的預處理和清洗流程,確保沒有任何偏差影響最終結論。其中,阿里巴巴最新的 QwQ-32B-Preview 在難度相對較低的考研數學題方面正確率達到0.833,優勢占比明顯。而整體準確率上,DeepSeek-R1-Lite以0.667的正確率位列國內模型第一,超越OpenAI 的標桿o1-preview模型,但仍然低于o1-mini。不久前,Sam Altman曾表示o1在美國數學奧林匹克 (AIME) 預選賽題目中能躋身美國前500名學生之列,而此次評測也采用了AIME1/2的題目。榜單鏈接:https://agi-eval.cn/evaluation/advanced-mathematics除了推出評測榜單以外,AGI-Eval也從模型的推理過程中,發現了一些有意思的現象。(一)實現類人模式,完成后會自我檢查與糾錯同類的幾個推理模型都有自我糾錯環節,檢查推理步驟并進行二次驗證,當發現推理思路不對,會換個思路繼續推理。DeepSeek-R1prompt:設f(x)是定義域為R、最小正周期為5的函數.若函數g(x)=f(2^x)在區間[0,5)上的零點個數為25,則g(x)在區間[1,4)上的零點個數為思維鏈路:wait, 這樣算好像不太對。我應該重新考慮。對于每個 \( k \),\( a_i + 5k \in [1, 32) \),且 \( a_i \in [0, 5) \)。所以,對于 \( k=0 \):\( 0+0=0 \) 到 \( 5+0=5 \),要 \( \geq 1 \),所以 \( a_i \in [1, 5) \) \( \Rightarrow \) 解為 \( x \) 滿足 \( 2^x = a_i + 0 \Rightarrow x = \log_2(a_i) \)。\( k=1 \):\( a_i + 5 \in [5, 10) \),要 \( \geq 1 \),即全部滿足,因為 \( 5 \geq 1 \)。所以 \( a_i \in [0, 5) \)。\( k=2 \):\( a_i + 10 \in [10, 15) \),要 \( \geq 1 \),全部滿足。\( k=3 \):\( a_i + 15 \in [15, 20) \),要 \( \geq 1 \),全部滿足。\( k=4 \):\( a_i + 20 \in [20, 25) \),要 \( \geq 1 \),全部滿足。\( k=5 \):\( a_i + 25 \in [25, 30) \),要 \( \geq 1 \),全部滿足。\( k=6 \):\( a_i + 30 \in [30, 35) \),要 \( < 32 \),所以 \( a_i + 30 < 32 \Rightarrow a_i < 2 \)K0-mathprompt:在平面直角坐標系內,點M∈{(x,y)|x^2/200+y^2/8≤1},點A(2,1),若△OMA的面積不超過3,則滿足條件的整點M的個數為思維鏈路:不過,我有點擔心是不是有某些點不滿足橢圓的條件。為了確保,我隨機檢查幾個點:比如,當 \( y = 2 \) 時,\( x = 10 \):\[\frac{10^2}{200} + \frac{2^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1\]符合條件。再看看當 \( y = -2 \) 時,\( x = -10 \):\[\frac{(-10)^2}{200} + \frac{(-2)^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1\]也符合。看來我的計算是正確的。所以,滿足條件的整數點 \( M \) 的個數是 65。(二)推理時間,隨難度顯著增加具體實戰時,DeepSeek-R1-Lite完成競賽數學平均推理時間僅3min,考研數學題的平均推理時間是1min。高中數學競賽:考研數學:(三)推理過程可能存在中英混雜的情況一些推理模型也會有偶現的輸出問題。例如,DeepSeek-R1-Lite在完成中文試題時,推理部分會存在中英夾雜的情況,K0-math會出現中文試題全英回答。DeepSeek-R1prompt:給定整數 n>2 和 l \in\{1,2, \cdots, n\} . 稱 \{1,2, \cdots, n\} 的子集族 A_{1}, \cdots, A_{k} (允許相同) 是 l- 大的, 如果對任意 1 \leq i \leq k 有 \left|A_{i}\right| \geq l . 求最大的實數 c , 使得對任意正整數 k , 任意非負實數 x_{1}, \cdots, x_{k} , 以及 \{1,2, \cdots, n\} 的任意 l -大的子集族 A_{1}, \cdots, A_{k} , 均有\sum_{i=1}^{k} \sum_{j=1}^{k} x_{i} x_{j} \frac{\left|A_{i} \cap A_{j}\right|^{2}}{\left|A_{i}\right| \cdot\left|A_{j}\right|} \geq c\left(\sum_{i=1}^{k} x_{i}\right)^{2}思維鏈路這可能比較難以直接計算。也許可以考慮對稱的情況,比如所有 \( A_i \) 都是相同的集合,或者完全不相交的集合。不過,完全不相交的集合在 \( I \geq 1 \) 時可能不成立,因為 \( n > 1 \)。Wait, for \( I=1 \), \( n > 2 \), but \( I \) can be up to \( n \)。If \( I=1 \), then \( A_i \) can be any non-empty set。But since it’s \( I \)-large, \( |A_i| \geq l \)。But \( I \) can be from 1 to \( n \)。This complicates things.Maybe consider fixing \( I \) and \( n \), and find \( c \) in terms of \( I \) and \( n \)。But the problem asks for \( c \) in terms of \( n \) and \( I \)。K0-mathprompt:以 x=t y 參數化曲線 x^{2}+y^{3}=x y , 求曲線所圍區域的面積.思維鏈路:Given the time I’ve spent without making progress, I think I need to revisit the problem statement to ensure I understood it correctly. The problem asks to parameterize the curve with \(x=t\) and \(y=t\), but that led to a trivial solution. Perhaps the intended parameterization is different.If I consider a different parameterization, such as (x從以上情況可以推斷,或許模型在數據訓練時,投喂的中文數據語料偏少,反而英文語料偏多,導致即使中文問題仍會出現大量英文回答。(四)糾錯失效?長推理鏈導致模型死循環DeepSeek-R1-Lite模型推理包括長鏈路推理和輸出解題思路2個步驟。對于輸出解題,模型推理即使發現有誤,仍會輸出一個錯誤答案。錯誤答案輸出,題目實際答案為23,DeepSeek-R1-Lite知道錯誤后仍給出5作為結果。prompt:在坐標平面上, 設 O(0,0), A\left(\frac{1}{2}, 0\right) , 和 B\left(0, \frac{\sqrt{3}}{2}\right) 。設 \mathcal{F} 為單位長度的線段 \overline{P Q} 所組成的集合, 這些線段位于第一象限, 點 P 在 x -軸上, 點 Q 在 y -軸上。在 \overline{A B} 上有一個獨特的點 C , 不同于 A 和 B , 它不屬于 \mathcal{F} 中的任何線段, 除了 \overline{A B} 。那么 O C^{2}=\frac{p}{q} , 其中 p 和 q 是互質的正整數。求 p+q 。思維鏈路坐標平面線段長度求和問題,UC=1/4,可能這就是答案。不過,我覺得可能有誤,因為題目的答案可能不是5。也許我需要再檢查一下。假設 c(14,34)c(41,43),那么 oc2=(14)2+(34)2=116+316=416=14oc2=(41)2+(43)2=161+163=164=41,確實是 1441。也許題目有誤,或者我的理解有誤。不過,根據我的推導,答案應該是5。答案:根據我的推導,答案應該是5。面對長鏈路推理,模型思維鏈失敗,會承認超出能力范圍,但也會陷入死循環狀態。2算法競賽題推理能力評測, o1 系列依然領跑除了數學競賽之外,AGI-Eval還針對編程能力進行了專項評測。AGI-Eval 在編程的模型評測部分,采用了最新發布的「高難度算法競賽題」數據集,是由多所高校合作建設完成,包括NOIP(信息學競賽省賽)、信息學競賽省隊選拔賽 、 NOI(信息學競賽全國賽)等多個渠道。在「高難度算法競賽題」數據集榜單上,o1-mini和o1-preview的編程能力依然保持顯著優勢,但其他國產模型如DeepSeek-R1-Lite和InternThinker-Alpha也展現出了不俗的實力,尤其是在一些特定類型的題目上超越了 o1系列模型。榜單鏈接:https://agi-eval.cn/evaluation/advanced-algorithm-olympiad在代碼能力得分這個維度上,之前主要參考準確率(通過全部測試用例算正確否則算錯誤)和通過率(看每個測試用例是否通過)這兩個指標。但參考實際得分時,因為競賽類試題難度大,各模型的準確率區分度不足,最終以通過率作為指標。除此之外,為拉開區分度,也嘗試通過給出題解、偽代碼的方式來評測。3下一步計劃:人機協作評測新模式探索及高質量評測社區建設鑒于傳統評測方式難以充分反映模型的真實水平,AGI-Eval創新性地提出了人機協作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務,既有助于提高任務完成度又便于建立更加直觀的區分度。基于前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。未來,隨著更多類似平臺的出現和發展,相信人機協作將成為評測領域的一個重要發展方向。人機社區鏈接:https://agi-eval.cn/llmArena/homeAGI-Eval 平臺基于真實數據回流、能力項拆解等方式,自建萬量級私有數據,并經過多次質檢保證準確率。黑盒100%私有化數據,可保證評測數據不可“穿越”。從數據建設到模型評測,實現全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。對于Chat模型,平臺官方榜單結合主觀、客觀評測結果,中英文權重分布均衡。客觀評測基于模型打分,可處理具有一定度問題,準確率95%+;主觀評測基于三人標注,并記錄細分維度標簽結果,全面診斷模型問題。4總結:推理模型面臨的挑戰與思考(一)數據訓練與語料問題推理模型現的中英混雜現象,反映出模型訓練數據語料的不平衡。在未來的模型訓練中,如何增加高質量的中文語料,優化語料比例,成為提升模型中文推理能力的關鍵問題。這需要開發者在數據收集、整理和預處理階段,更加注重中文數據的多樣性、準確性和豐富性,以減少因語料問題導致的推理偏差。(二)推理糾錯與死循環DeepSeek – R1 – Lite 模型在推理過程中,即使發現錯誤仍可能輸出錯誤答案,且在面對長鏈路推理時,容易陷入死循環狀態。這表明模型在推理糾錯機制和長鏈路推理的優化上還有很大的提升空間。開發者需要研究更有效的推理糾錯算法,以及對長鏈路推理進行合理的中斷或優化策略,以提高模型推理的準確性和效率。(三)模型校準與性能提升在模型校準方面,盡管大規模模型如 GPT – 4o 在一定程度上表現出更好的校準性能,但整體來看,各模型在信心指數與答案實際準確率的匹配上仍存在不足,普遍對自身回答的準確性過于自信。未來需要深入研究模型校準技術,使模型能夠更準確地評估自身答案的可靠性,從而提高模型在實際應用中的可信度。5未來展望推理模型在當前的技術發展中取得了顯著進展,AGI – Eval 等各類新型評測社區也為模型的評估提供了一些新穎的視角,推動了模型在數學、代碼推理以及人機協作等多方面的發展。然而,模型仍面臨著數據訓練、推理糾錯、模型校準等諸多挑戰。隨著技術的不斷演進,未來有望通過優化數據策略、改進算法設計、完善評估體系等多方面的努力,進一步提升推理模型的性能,使其在更多領域發揮更大的價值,為人工智能技術的發展帶來新的突破與變革,推動人工智能從感知智能向認知智能的深度跨越。此外,近期發布的滿血“o1 ”和“o1 pro”,在數學、代碼和各類專家測試中,能力也上升了一個新的臺階。最強的推理模型到底有多強?AGI-Eval 社區會設計更加具有難度、區分度的問題,更新榜單、給出答案。更多內容,點擊下方關注:未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产h视频在线观看免费| 24小时免费看片| 免费在线观看视频a| 亚洲乱码av中文一区二区| 久草视频免费在线| 亚洲ts人妖网站| 久久精品网站免费观看| 一本色道久久88亚洲精品综合| 亚洲一区二区三区免费在线观看 | 国产精品亚洲а∨无码播放不卡| 最近中文字幕无免费视频| 亚洲视频在线观看2018| 日本一道一区二区免费看| 国产精品亚洲一区二区三区久久| 亚洲国产高清精品线久久| 精品成人免费自拍视频| 亚洲狠狠狠一区二区三区| 成人黄18免费视频| 九九免费精品视频在这里| 国产亚洲精品无码成人| 69精品免费视频| 亚洲AV色无码乱码在线观看| 四虎亚洲国产成人久久精品| WWW免费视频在线观看播放| 亚洲天天在线日亚洲洲精| 野花高清在线电影观看免费视频| 亚洲AV无码专区在线电影成人| 亚洲AV无码乱码在线观看| 成人性生交大片免费看中文| 亚洲女人初试黑人巨高清| 嫩草影院免费观看| 韩国免费a级作爱片无码| 亚洲乱码日产精品BD在线观看| 免费无遮挡无码视频网站| 国产免费MV大全视频网站| 亚洲的天堂av无码| 亚洲国产av一区二区三区| 在线美女免费观看网站h| 国产成人+综合亚洲+天堂| 亚洲欧洲日韩不卡| 免费v片在线观看品善网|