GPT-4.5登頂6小時即失守！Grok-3上演1分逆襲

AIGC動態6個月前發布量子位

324 0 0

奧特曼：第一次有人求我承諾不會下架一款模型

原標題：GPT-4.5登頂6小時即失守！Grok-3上演1分逆襲
文章來源：量子位
內容字數：1870字

大模型競技場風云變幻：GPT-4.5與Grok-3巔峰對決

近日，大模型競技場競爭激烈，GPT-4.5和馬斯克的新版Grok-3上演了一場精彩的“”。

GPT-4.5短暫登頂
GPT-4.5最初以全任務分類第一名的成績登頂，獲得3000+票數，總分達到1412分。
Grok-3強勢反超
然而，僅僅6小時后，Grok-3便以1411分反超GPT-4.5，成為總榜第一。兩者票數均超過3000，差距僅為一分。Grok-3主要在總體帶風格控制、困難提示詞帶風格控制方面略勝一籌，在其他方面與GPT-4.5不相上下。DeepSeek-R1也表現出色，在數學和困難提示詞帶風格控制分項上與GPT-4.5并列第一。
投票機制引發的爭議
如此迅速的排名變化引發了用戶的質疑。有人解釋稱，競技場存在投票數量門檻，兩個模型先后達到3000票才出現在榜單上，這導致了排名變化的集現。
GPT-4.5口碑逆轉
盡管在競技場上的表現存在爭議，但GPT-4.5的口碑卻在悄然發生逆轉。最初，GPT-4.5因價格昂貴且官方強調的情商優勢并未在初期跑分中體現出來而備受質疑。但隨著時間的推移，越來越多的用戶開始認可其情商方面的能力，OpenAI CEO山姆·奧特曼也對此表示認同，并分享了用戶對其的贊揚以及自己與GPT-4.5的精彩對話。
奧特曼與GPT-4.5的對話
奧特曼分享了GPT-4.5對奧特曼創作的六個單詞小故事“臨近奇點，不清楚在哪一側”的解讀。GPT-4.5認為人類已經進入人工智能重塑人類思想、創造力等方面的新世界，但其影響的具體含義尚不明朗。
GPT-4.5在“狼人殺”AI比賽中獲勝
除了競技場排名，GPT-4.5還在一個類似“狼人殺”的AI模型比賽中奪冠。該比賽要求AI模型進行多輪淘汰賽，包括公開辯論、私下策略制定以及投票淘汰等環節。最終，GPT-4.5在結盟、、背叛等策略運用方面表現出色，甚至優于人類，并獲得由被淘汰參賽者組成的陪審團的認可。

總而言之，大模型競技場的競爭異常激烈，排名變化瞬息萬變。GPT-4.5雖然在競技場排名上經歷了短暫的巔峰和被超越，但其在實際應用和口碑方面都展現出其強大的實力。這同時也反映出大模型技術發展日新月異，未來還將有更多驚喜和挑戰等待我們。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI模型競爭格局 # AI模型訓練效率 # GPT-45性能衰減 # Grok-3快速超越 # 大型語言模型性能波動

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

GPT-4.5登頂6小時即失守！Grok-3上演1分逆襲

奧特曼：第一次有人求我承諾不會下架一款模型

大模型競技場風云變幻：GPT-4.5與Grok-3巔峰對決

GPT-4.5短暫登頂

Grok-3強勢反超

投票機制引發的爭議

GPT-4.5口碑逆轉

奧特曼與GPT-4.5的對話

GPT-4.5在“狼人殺”AI比賽中獲勝

聯系作者

模型參數超 RFdiffusion 5倍！英偉達等發布 Proteina，從頭設計蛋白質主鏈性能達 SOTA

DeepSeek R1與OpenAI模型文風相似度高達74.2%？新研究質疑DeepSeek訓練數據

相關文章

暫無評論

ChatGPT

玩虛擬模特？