開源大模型又強了一大截。

原標題:超越Claude 3.5緊追o1!DeepSeek-V3-Base開源,編程能力暴增近31%
文章來源:機器之心
內容字數:2466字
DeepSeek-V3-Base:開源MoE模型強勢來襲
近日,DeepSeek AI公司開源了其最新的混合專家(MoE)語言模型DeepSeek-V3-Base,參數量達685B,引發了AI社區的廣泛關注。該模型采用256個專家,sigmoid路由方式,每次選擇前8個專家進行計算,展現出極高的稀疏性,從而在性能和效率上取得平衡。
1. 模型架構與性能
DeepSeek-V3-Base基于MoE架構,擁有巨大的參數量和顯著的稀疏性。Aider多語言編程測評結果顯示,其性能僅次于OpenAI o1-2024-12-17 (high),超越了Claude-3.5-sonnet-20241022、Gemini-Exp-1206等多個競品模型,以及DeepSeek公司前代模型DeepSeek Chat V2.5。與V2.5相比,V3的編程性能提升了近31%,達到48.4%。此外,疑似流出的LiveBench基準測試結果也顯示,DeepSeek-V3在整體性能、推理、編程、數學、數據分析等多個方面都具有很強的競爭力,超越了Gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。
2. 與前代模型的差異
DeepSeek V3與V2版本的主要區別在于模型規模和激活函數。V3是V2的“放大版”,其詞匯量、隱藏層大小、中間層大小、隱藏層數量、注意力頭數量以及最大位置嵌入均顯著增加。此外,V3采用了sigmoid函數作為模型評分函數,而V2則使用了softmax函數。
3. 社區反饋與展望
許多網友認為DeepSeek-V3-Base是Claude的強勁對手,甚至可以替代Claude 3.5。開源模型的快速發展也令許多人感嘆,其進步速度驚人,并預測2025年將成為AI領域具有里程碑意義的一年。DeepSeek-V3-Base的開源,為研究者和開發者提供了寶貴的資源,也推動了開源大模型的發展。
4. 總結
DeepSeek-V3-Base的出現,標志著開源MoE模型在性能上取得了顯著突破。其強大的性能和開源屬性,將對大模型領域產生深遠的影響,并促進AI技術的進一步發展和應用。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺

粵公網安備 44011502001135號