Deepseek v3 實測來了!智商,情商不存在,自信退出價格戰(zhàn)

原標題:Deepseek v3 實測來了!智商,情商不存在,自信退出價格戰(zhàn)
文章來源:夕小瑤科技說
內(nèi)容字數(shù):6464字
DeepSeek V3:高智商低情商的國產(chǎn)大模型新秀
近日,國產(chǎn)大模型DeepSeek發(fā)布了其最新版本V3,引發(fā)業(yè)內(nèi)廣泛關(guān)注。這款模型以其強大的性能和相對低廉的成本,成為開源大模型領(lǐng)域的新標桿,但也暴露出在情商方面存在的不足。
性能突破與價格上漲
DeepSeek V3在多個基準測試中表現(xiàn)出色,在數(shù)學、代碼和部分多語言能力方面超越了包括LLaMA-3.1 405B在內(nèi)的多個開源模型,甚至與閉源模型Claude 3.5 Sonnet和GPT-4o不相上下。然而,其API價格也相應(yīng)上漲,盡管如此,其價格仍遠低于Claude 3.5 Sonnet。
智商測試:驚艷表現(xiàn)
實際測試中,DeepSeek V3在復雜的編程題和部分數(shù)學題上表現(xiàn)令人驚艷,成功解決了難倒眾多其他模型的問題,展現(xiàn)了其強大的代碼能力和數(shù)學推理能力。即使在一些復雜的數(shù)學競賽題上,雖然不如新一代推理范式模型,但在簡單的數(shù)學題上表現(xiàn)優(yōu)秀,甚至在圖片識別題上也出乎意料地取得了不錯的成績。
情商測試:仍需提升
然而,DeepSeek V3在情商測試中表現(xiàn)欠佳,未能正確應(yīng)對一些需要理解人類情感和社會常識的題目,凸顯了其在情商方面的不足。這與追求安全性和避免偏見的目標有關(guān),但也成為其一個明顯的短板。
技術(shù)細節(jié):高效訓練
DeepSeek V3的成功與其高效的訓練方法密切相關(guān)。它僅使用2048塊GPU,耗時兩個月,成本約557.6萬美元,就完成了訓練,這遠低于其他同等性能模型的訓練成本,也證明了資源利用和算法優(yōu)化的重要性。其核心技術(shù)包括MoE架構(gòu)、YaRN技術(shù)以及對數(shù)學和編程樣本比例的提升。
結(jié)論:高性能與高性價比的平衡
DeepSeek V3的出現(xiàn),改變了大模型領(lǐng)域“算力決定一切”的傳統(tǒng)觀念,證明了在資源受限的情況下,通過優(yōu)化模型架構(gòu)、訓練策略和數(shù)據(jù)篩選,也能取得突破性的進展。雖然在情商方面仍有待提升,但其高性能、高性價比的特點,使其成為開源大模型領(lǐng)域一顆冉冉升起的新星。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發(fā)燒友、開發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號