一家中國 AI 初創公司創建出被用戶稱作 “真正的‘Open’AI ”的人工智能模型。
原標題:把訓練成本打下來99%!吊打GPT又“征服”OpenAI創始成員,DeepSeek“國產之光”實至名歸?
文章來源:AI前線
內容字數:6400字
中國AI初創公司DeepSeek發布強大開源模型DeepSeek-V3
中國人工智能初創公司DeepSeek發布了其最新的大型語言模型DeepSeek-V3,并將其開源。該模型參數規模達到6710億,但卻以極低的訓練成本(不到600萬美元)取得了優異的性能,在多個基準測試中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型,甚至與閉源模型GPT-4o和Claude-3.5-Sonnet性能相當,被用戶譽為“真正的‘Open’AI”。
1. DeepSeek-V3的卓越性能
DeepSeek-V3在編碼競賽平臺Codeforces以及Aider Polyglot測試中均取得領先成績。其在以中文和數學為中心的基準測試中表現尤其突出,例如在Math-500測試中得分高達90.2。雖然在一些以英語為中心的測試中略遜于GPT-4o,但整體性能已達到業界領先水平。DeepSeek V3的優勢在于其高效的訓練和推理能力,這得益于其采用的混合專家架構和多項技術創新。
2. 高效的訓練與推理
DeepSeek-V3基于多頭潛在注意力(MLA)與DeepSeekMoE架構,并結合輔助無損負載均衡策略和多 token 預測(MTP)技術,實現了高效的訓練和推理。MTP技術將模型的執行速度提高了三倍,每秒可生成60個 token。通過算法和工程優化,包括FP8混合精度訓練框架和DualPipe算法,DeepSeek-V3的訓練成本遠低于其他同級別模型,僅需約557萬美元。
3. 低廉的訓練成本引發的討論
DeepSeek-V3的低訓練成本引發了業界廣泛關注。OpenAI創始人之一Andrej Karpathy對如此低的成本表示震驚,認為這在資源受限的環境下是一個令人印象深刻的成就。一些專家認為,這表明在人工智能領域,算法和工程優化可能比單純的算力投入更重要,也可能暗示著對高端半導體出口禁令適得其反,反而促進了中國研究人員的創新。
4. DeepSeek-V3的商業化和用戶反饋
DeepSeek-V3的代碼已通過GitHub基于MIT許可開源,用戶也可以通過DeepSeek Chat平臺測試該模型并訪問API進行商業使用。DeepSeek-V3的定價策略也獲得了用戶好評,被認為具有極高的性價比。用戶對其理解能力和解決復雜問題的能力表示贊賞,甚至有用戶用其解答了此前其他模型無法解決的難題。
5. 未來展望
DeepSeek-V3的出現標志著開源大型語言模型發展的新階段,其低廉的訓練成本和卓越的性能為更廣泛的應用提供了可能性。 未來,DeepSeek-V3的進一步發展和應用值得期待。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。