把訓(xùn)練成本打下來99%!吊打GPT又“征服”O(jiān)penAI創(chuàng)始成員,DeepSeek“國產(chǎn)之光”實(shí)至名歸?
一家中國 AI 初創(chuàng)公司創(chuàng)建出被用戶稱作 “真正的‘Open’AI ”的人工智能模型。

原標(biāo)題:把訓(xùn)練成本打下來99%!吊打GPT又“征服”OpenAI創(chuàng)始成員,DeepSeek“國產(chǎn)之光”實(shí)至名歸?
文章來源:AI前線
內(nèi)容字?jǐn)?shù):6400字
中國AI初創(chuàng)公司DeepSeek發(fā)布強(qiáng)大開源模型DeepSeek-V3
中國人工智能初創(chuàng)公司DeepSeek發(fā)布了其最新的大型語言模型DeepSeek-V3,并將其開源。該模型參數(shù)規(guī)模達(dá)到6710億,但卻以極低的訓(xùn)練成本(不到600萬美元)取得了優(yōu)異的性能,在多個基準(zhǔn)測試中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型,甚至與閉源模型GPT-4o和Claude-3.5-Sonnet性能相當(dāng),被用戶譽(yù)為“真正的‘Open’AI”。
1. DeepSeek-V3的卓越性能
DeepSeek-V3在編碼競賽平臺Codeforces以及Aider Polyglot測試中均取得領(lǐng)先成績。其在以中文和數(shù)學(xué)為中心的基準(zhǔn)測試中表現(xiàn)尤其突出,例如在Math-500測試中得分高達(dá)90.2。雖然在一些以英語為中心的測試中略遜于GPT-4o,但整體性能已達(dá)到業(yè)界領(lǐng)先水平。DeepSeek V3的優(yōu)勢在于其高效的訓(xùn)練和推理能力,這得益于其采用的混合專家架構(gòu)和多項(xiàng)技術(shù)創(chuàng)新。
2. 高效的訓(xùn)練與推理
DeepSeek-V3基于多頭潛在注意力(MLA)與DeepSeekMoE架構(gòu),并結(jié)合輔助無損負(fù)載均衡策略和多 token 預(yù)測(MTP)技術(shù),實(shí)現(xiàn)了高效的訓(xùn)練和推理。MTP技術(shù)將模型的執(zhí)行速度提高了三倍,每秒可生成60個 token。通過算法和工程優(yōu)化,包括FP8混合精度訓(xùn)練框架和DualPipe算法,DeepSeek-V3的訓(xùn)練成本遠(yuǎn)低于其他同級別模型,僅需約557萬美元。
3. 低廉的訓(xùn)練成本引發(fā)的討論
DeepSeek-V3的低訓(xùn)練成本引發(fā)了業(yè)界廣泛關(guān)注。OpenAI創(chuàng)始人之一Andrej Karpathy對如此低的成本表示震驚,認(rèn)為這在資源受限的環(huán)境下是一個令人印象深刻的成就。一些專家認(rèn)為,這表明在人工智能領(lǐng)域,算法和工程優(yōu)化可能比單純的算力投入更重要,也可能暗示著對高端半導(dǎo)體出口禁令適得其反,反而促進(jìn)了中國研究人員的創(chuàng)新。
4. DeepSeek-V3的商業(yè)化和用戶反饋
DeepSeek-V3的代碼已通過GitHub基于MIT許可開源,用戶也可以通過DeepSeek Chat平臺測試該模型并訪問API進(jìn)行商業(yè)使用。DeepSeek-V3的定價(jià)策略也獲得了用戶好評,被認(rèn)為具有極高的性價(jià)比。用戶對其理解能力和解決復(fù)雜問題的能力表示贊賞,甚至有用戶用其解答了此前其他模型無法解決的難題。
5. 未來展望
DeepSeek-V3的出現(xiàn)標(biāo)志著開源大型語言模型發(fā)展的新階段,其低廉的訓(xùn)練成本和卓越的性能為更廣泛的應(yīng)用提供了可能性。 未來,DeepSeek-V3的進(jìn)一步發(fā)展和應(yīng)用值得期待。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號