超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，編程能力暴增近31％

開源大模型又強了一大截。

原標題：超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，編程能力暴增近31％
文章來源：機器之心
內容字數：2466字

DeepSeek-V3-Base：開源MoE模型強勢來襲

近日，DeepSeek AI公司開源了其最新的混合專家(MoE)語言模型DeepSeek-V3-Base，參數量達685B，引發了AI社區的廣泛關注。該模型采用256個專家，sigmoid路由方式，每次選擇前8個專家進行計算，展現出極高的稀疏性，從而在性能和效率上取得平衡。

1. 模型架構與性能

DeepSeek-V3-Base基于MoE架構，擁有巨大的參數量和顯著的稀疏性。Aider多語言編程測評結果顯示，其性能僅次于OpenAI o1-2024-12-17 (high)，超越了Claude-3.5-sonnet-20241022、Gemini-Exp-1206等多個競品模型，以及DeepSeek公司前代模型DeepSeek Chat V2.5。與V2.5相比，V3的編程性能提升了近31%，達到48.4%。此外，疑似流出的LiveBench基準測試結果也顯示，DeepSeek-V3在整體性能、推理、編程、數學、數據分析等多個方面都具有很強的競爭力，超越了Gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。

2. 與前代模型的差異

DeepSeek V3與V2版本的主要區別在于模型規模和激活函數。V3是V2的“放大版”，其詞匯量、隱藏層大小、中間層大小、隱藏層數量、注意力頭數量以及最大位置嵌入均顯著增加。此外，V3采用了sigmoid函數作為模型評分函數，而V2則使用了softmax函數。

3. 社區反饋與展望

許多網友認為DeepSeek-V3-Base是Claude的強勁對手，甚至可以替代Claude 3.5。開源模型的快速發展也令許多人感嘆，其進步速度驚人，并預測2025年將成為AI領域具有里程碑意義的一年。DeepSeek-V3-Base的開源，為研究者和開發者提供了寶貴的資源，也推動了開源大模型的發展。

4. 總結

DeepSeek-V3-Base的出現，標志著開源MoE模型在性能上取得了顯著突破。其強大的性能和開源屬性，將對大模型領域產生深遠的影響，并促進AI技術的進一步發展和應用。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI編程能力提升 # Claude35性能提升 # DeepSeek-V3-Base性能 # 大型語言模型性能改進 # 開源編程模型比較

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，編程能力暴增近31％

開源大模型又強了一大截。

DeepSeek-V3-Base：開源MoE模型強勢來襲

1. 模型架構與性能

2. 與前代模型的差異

3. 社區反饋與展望

4. 總結

聯系作者

「數字孿生」東京上線！Jim Fan：具身智能零樣本遷移現實世界，共享「蜂群思維」

裝上透明屏幕的書架，憑什么能賣 43 萬？

相關文章

暫無評論

ChatGPT

玩虛擬模特？