360 推出國產(chǎn)自研 AI 大模型，多項評測優(yōu)于GPT-4o

AI工具1年前 (2024)發(fā)布 AI工具集

產(chǎn)品名稱：360gpt2-o1
產(chǎn)品簡介：360gpt2-o1 是 360 自研的 AI 大模型，在推理能力上有顯著提升，特別是在數(shù)學和邏輯推理任務(wù)上表現(xiàn)出色。模型通過合成數(shù)據(jù)優(yōu)化、模型后訓練和“慢思考”范式實現(xiàn)了技術(shù)突破，在多項權(quán)威評測中取得了優(yōu)異成績。
詳細介紹：

360gpt2-o1是什么

360gpt2-o1是 360 自研的 AI 大模型，在推理能力上有顯著提升，特別是在數(shù)學和邏輯推理任務(wù)上表現(xiàn)出色。模型通過合成數(shù)據(jù)優(yōu)化、模型后訓練和“慢思考”范式實現(xiàn)了技術(shù)突破，在多項權(quán)威評測中取得了優(yōu)異成績。在基礎(chǔ)數(shù)學評測（如 MATH、高考數(shù)學）以及權(quán)威數(shù)學競賽（包括 AIME24、AMC23）中，360gpt2-o1 超越了前代模型 360gpt2-pro，優(yōu)于 GPT-4o 模型。在數(shù)學競賽評測中，360gpt2-o1 超過了阿里巴巴最新開源的 o1 系列模型 QWQ-32B-preview。

360gpt2-o1的主要功能

推理能力提升：360gpt2-o1 在數(shù)學和邏輯推理任務(wù)上表現(xiàn)出色，特別是在推理能力上有顯著提升。
合成數(shù)據(jù)優(yōu)化：通過指令合成、質(zhì)量/多樣性篩選等方法，解決了高質(zhì)量數(shù)學與邏輯推理數(shù)據(jù)稀缺的問題，有效擴充了訓練數(shù)據(jù)集。
模型后訓練：采用兩階段訓練策略，先用小模型生成多樣化的推理路徑，再用大模型進行 RFT 訓練和強化學習訓練，提升模型推理能力和反思糾錯能力。
“慢思考”范式：基于蒙特卡洛樹搜索探索多樣化解決方案，引入 LLM 進行錯誤驗證和糾錯，模擬人類逐步推理和反思的過程，最終形成包含反思、驗證、糾錯和回溯的長思維鏈。

360gpt2-o1的技術(shù)原理

數(shù)據(jù)合成與篩選：通過合成數(shù)據(jù)優(yōu)化，360gpt2-o1能生成和篩選出高質(zhì)量的訓練數(shù)據(jù)，這些數(shù)據(jù)對于模型的訓練至關(guān)重要。
兩階段訓練策略：第一階段使用小模型生成推理路徑，第二階段使用大模型進行訓練，使模型能在保持推理多樣性的同時，提升推理的準確性和深度。
蒙特卡洛樹搜索與LLM結(jié)合：通過蒙特卡洛樹搜索，模型能探索多種可能的解決方案，LLM的引入則為模型提供了錯誤驗證和糾錯的能力，增強了模型的魯棒性。

如何使用360gpt2-o1

訪問360智腦：目前360gpt2-o1 已上線360智腦API開放平臺。
體驗地址：https://ai.360.com/playground/?model=360gpt2-o1?src=weixinmp

360gpt2-o1的應用場景

數(shù)學問題解決：360gpt2-o1 在基礎(chǔ)數(shù)學評測（如MATH、高考數(shù)學）以及權(quán)威數(shù)學競賽（包括AIME24、AMC23）中取得了顯著的成績，表明在數(shù)學問題解決方面的強大能力。
邏輯推理：模型通過“慢思考”技術(shù)，模擬人類逐步推理和反思的過程，具備解決復雜邏輯問題的能力。
編程問題：在數(shù)學、編程等領(lǐng)域的表現(xiàn)上接近甚至超越了o1，360gpt2-o1在編程問題解決上提供支持。
復雜問題解決：360gpt2-o1 能處理需要深層次邏輯推理能力的復雜問題，包括自我反思與糾錯的能力。
教育和學術(shù)：模型在教育領(lǐng)域的數(shù)學和邏輯問題上的應用，可以輔助教學和學術(shù)研究。
企業(yè)決策支持：通過邏輯推理和數(shù)據(jù)分析，360gpt2-o1 可以輔助企業(yè)在復雜決策過程中提供邏輯支持。

閱讀原文