考研數(shù)學得126分、還能編寫小游戲,智譜首個推理模型來了,人人免費用
國內(nèi)推理模型又添「生力軍」。
原標題:考研數(shù)學得126分、還能編寫小游戲,智譜首個推理模型來了,人人免費用
文章來源:機器之心
內(nèi)容字數(shù):6120字
智譜GLM-Zero-Preview:深度推理大模型強勢來襲
2024年末,智譜AI發(fā)布了其GLM模型家族的新成員——GLM-Zero-Preview,一個專注于深度思考與推理的大模型。該模型在數(shù)學、代碼和復雜推理問題上表現(xiàn)出色,填補了智譜在推理模型領(lǐng)域的空白。
1. GLM-Zero-Preview 的核心能力
GLM-Zero-Preview基于擴展強化學習技術(shù)訓練,在多個基準測試中與OpenAI的o1-preview模型不相上下,甚至在部分測試中有所超越。其顯著特點在于深度推理能力的提升,能夠進行問題拆解、嘗試多種解法,并展現(xiàn)出類人的思考決策過程。 它在數(shù)學題(例如完整解答2025年考研數(shù)學一,得分126分)和代碼編寫及調(diào)試方面都展現(xiàn)了強大的能力,甚至可以編寫HTML游戲。
2. 真實世界任務測試
機器之心對GLM-Zero-Preview進行了全方位測試,涵蓋了各種類型的推理問題,包括中文邏輯陷阱題、需要專業(yè)學科知識的題目以及視覺推理任務。測試結(jié)果顯示,GLM-Zero-Preview能夠輕松應對小數(shù)點比大小、干擾項排除、中文歧義等問題,并展現(xiàn)出強大的常識推理和時間感知能力。在數(shù)學題方面,它能夠解決序列求解、青蛙爬井等問題,甚至能夠解答高考數(shù)學題。
3. 與競品模型的對比
機器之心將GLM-Zero-Preview與o1、DeepSeek-R1-Lite、QwQ-32B-Preview等競品模型進行了對比測試。結(jié)果顯示,GLM-Zero-Preview的推理過程更加清晰完整,并展現(xiàn)出自我反思、自我懷疑、自我肯定等擬人化的思維模式,在邏輯性和準確性方面具有優(yōu)勢。
4. 智譜AI的AGI戰(zhàn)略
GLM-Zero-Preview的發(fā)布是智譜AI在AGI道路上邁出的關(guān)鍵一步。智譜AI制定了從L1到L5階段的AGI路線圖,GLM-Zero-Preview代表著其在L4階段取得的突破,標志著大模型開始具備內(nèi)省、自我學習和自我改進的能力。智譜AI的產(chǎn)品矩陣涵蓋基座模型、多模態(tài)模型、視頻生成模型、語音模型以及推理模型等,在完整度上處于業(yè)界領(lǐng)先地位。
5. 未來展望
智譜AI表示,GLM-Zero-Preview仍有提升空間,未來將通過強化學習技術(shù)的持續(xù)優(yōu)化,進一步增強其深度思考能力,并擴展其應用范圍。正式版GLM-Zero即將推出,預計其深度思考能力將得到進一步提升,并具備更強的通用性和專精性。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺