o3-mini 碾壓DeepSeek R1?一條python程序引發(fā)近400萬圍觀
編寫一個 Python 腳本,讓一個球在某個形狀內(nèi)彈跳
原標題:o3-mini 碾壓DeepSeek R1?一條python程序引發(fā)近400萬圍觀
文章來源:機器之心
內(nèi)容字數(shù):4083字
OpenAI o3-mini強勢來襲,與DeepSeek R1展開激烈對決
近日,OpenAI發(fā)布全新推理模型系列o3-mini,其成本降低至o1系列的1/15,并首次向免費用戶開放。這一舉動打破了DeepSeek R1此前在大模型圈的統(tǒng)治地位,引發(fā)網(wǎng)友熱議。
DeepSeek R1的輝煌與挑戰(zhàn)
此前,DeepSeek R1在“編寫球在旋轉(zhuǎn)形狀內(nèi)彈跳的Python腳本”任務(wù)中擊敗了OpenAI o1 pro、Claude 3.5 Sonnet和谷歌Gemini 1.5 Pro等模型,風(fēng)靡全球。然而,o3-mini的出現(xiàn)改變了這一局面。
o3-mini的強勢表現(xiàn)
在相同的“球在旋轉(zhuǎn)六邊形內(nèi)彈跳”任務(wù)中,o3-mini展現(xiàn)出更優(yōu)秀的碰撞、彈跳效果,對重力和摩擦力的理解也更為準確。在模擬球在四維超立方體內(nèi)部彈跳的任務(wù)中,o3-mini也表現(xiàn)出更穩(wěn)定的幾何結(jié)構(gòu)和更靈活的軌跡,而DeepSeek R1則出現(xiàn)了一些詭異的和形狀簡化的問題。
多場景測試對比
AIGC從業(yè)者@myapdx使用更復(fù)雜的“100個小球在旋轉(zhuǎn)球體內(nèi)部彈跳”任務(wù)進行測試,o3-mini完美滿足了所有要求,DeepSeek R1的表現(xiàn)也不差。測試結(jié)果顯示,o3-mini在理解真實世界物理規(guī)律方面表現(xiàn)出色,尤其在對重力、摩擦力等物理狀態(tài)的“世界模型”理解上有所突破。
DeepSeek R1的不足與猜測
一些網(wǎng)友指出DeepSeek R1在某些測試中只生成一個球,可能是因為模型“想得太多”。OpenAI也在發(fā)布博客中提到,o3-mini在博士級科學(xué)問題上的表現(xiàn)優(yōu)于o1系列。
結(jié)論
o3-mini的出現(xiàn)標志著大模型在理解物理規(guī)律方面取得了顯著進展。雖然DeepSeek R1仍具備競爭力,但o3-mini在某些特定任務(wù)上的表現(xiàn)更為出色,這場大模型之間的較量仍在繼續(xù)。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺