GPT-4.5登頂6小時(shí)即失守!Grok-3上演1分逆襲
奧特曼:第一次有人求我承諾不會(huì)下架一款模型
原標(biāo)題:GPT-4.5登頂6小時(shí)即失守!Grok-3上演1分逆襲
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):1870字
大模型競(jìng)技場(chǎng)風(fēng)云變幻:GPT-4.5與Grok-3巔峰對(duì)決
近日,大模型競(jìng)技場(chǎng)競(jìng)爭(zhēng)激烈,GPT-4.5和馬斯克的新版Grok-3上演了一場(chǎng)精彩的“”。
GPT-4.5短暫登頂
GPT-4.5最初以全任務(wù)分類第一名的成績(jī)登頂,獲得3000+票數(shù),總分達(dá)到1412分。
Grok-3強(qiáng)勢(shì)反超
然而,僅僅6小時(shí)后,Grok-3便以1411分反超GPT-4.5,成為總榜第一。兩者票數(shù)均超過(guò)3000,差距僅為一分。Grok-3主要在總體帶風(fēng)格控制、困難提示詞帶風(fēng)格控制方面略勝一籌,在其他方面與GPT-4.5不相上下。DeepSeek-R1也表現(xiàn)出色,在數(shù)學(xué)和困難提示詞帶風(fēng)格控制分項(xiàng)上與GPT-4.5并列第一。
投票機(jī)制引發(fā)的爭(zhēng)議
如此迅速的排名變化引發(fā)了用戶的質(zhì)疑。有人解釋稱,競(jìng)技場(chǎng)存在投票數(shù)量門檻,兩個(gè)模型先后達(dá)到3000票才出現(xiàn)在榜單上,這導(dǎo)致了排名變化的集現(xiàn)。
GPT-4.5口碑逆轉(zhuǎn)
盡管在競(jìng)技場(chǎng)上的表現(xiàn)存在爭(zhēng)議,但GPT-4.5的口碑卻在悄然發(fā)生逆轉(zhuǎn)。最初,GPT-4.5因價(jià)格昂貴且官方強(qiáng)調(diào)的情商優(yōu)勢(shì)并未在初期跑分中體現(xiàn)出來(lái)而備受質(zhì)疑。但隨著時(shí)間的推移,越來(lái)越多的用戶開(kāi)始認(rèn)可其情商方面的能力,OpenAI CEO山姆·奧特曼也對(duì)此表示認(rèn)同,并分享了用戶對(duì)其的贊揚(yáng)以及自己與GPT-4.5的精彩對(duì)話。
奧特曼與GPT-4.5的對(duì)話
奧特曼分享了GPT-4.5對(duì)奧特曼創(chuàng)作的六個(gè)單詞小故事“臨近奇點(diǎn),不清楚在哪一側(cè)”的解讀。GPT-4.5認(rèn)為人類已經(jīng)進(jìn)入人工智能重塑人類思想、創(chuàng)造力等方面的新世界,但其影響的具體含義尚不明朗。
GPT-4.5在“狼人殺”AI比賽中獲勝
除了競(jìng)技場(chǎng)排名,GPT-4.5還在一個(gè)類似“狼人殺”的AI模型比賽中奪冠。該比賽要求AI模型進(jìn)行多輪淘汰賽,包括公開(kāi)辯論、私下策略制定以及投票淘汰等環(huán)節(jié)。最終,GPT-4.5在結(jié)盟、、背叛等策略運(yùn)用方面表現(xiàn)出色,甚至優(yōu)于人類,并獲得由被淘汰參賽者組成的陪審團(tuán)的認(rèn)可。
總而言之,大模型競(jìng)技場(chǎng)的競(jìng)爭(zhēng)異常激烈,排名變化瞬息萬(wàn)變。GPT-4.5雖然在競(jìng)技場(chǎng)排名上經(jīng)歷了短暫的巔峰和被超越,但其在實(shí)際應(yīng)用和口碑方面都展現(xiàn)出其強(qiáng)大的實(shí)力。 這同時(shí)也反映出大模型技術(shù)發(fā)展日新月異,未來(lái)還將有更多驚喜和挑戰(zhàn)等待我們。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破