原標題:國產大模型DeepSeek-V3一夜火爆全球,《DeepSeek-V3技術報告》,53頁pdf
文章來源:人工智能學家
內容字數:10891字
國產大模型DeepSeek-V3驚艷全球
近日,一款名為DeepSeek-V3的國產大模型在全球范圍內引發熱議。其參數量高達671B,卻僅使用了278.8萬H800 GPU小時完成訓練,這遠低于其他同級別模型的訓練成本,例如Llama 3系列模型就需要3930萬H100 GPU小時。DeepSeek-V3的驚人效率和性能使其迅速成為焦點。
高效訓練與卓越性能
1. **低成本高效率:** DeepSeek-V3的訓練效率是其最大亮點。相比其他模型動輒數千萬GPU小時的訓練成本,DeepSeek-V3的訓練成本極低,這主要歸功于其創新的MLA(多頭隱注意力)和DeepSeekMoE架構,以及無輔助損失的負載平衡策略和多token預測訓練目標等技術。
2. **性能超越預期:** DeepSeek-V3在多項基準測試中表現出色,甚至在一些任務上超越了GPT-4o和Claude 3.5 Sonnet等領先的閉源模型。其在英語、代碼、數學、漢語以及多語言任務上的表現都非常突出,尤其在MATH 500、AIME 2024、Codeforces等方面優勢明顯。
3. **技術創新:** DeepSeek-V3的核心技術包括MLA、DeepSeekMoE架構、無輔助損失的負載平衡策略以及多token預測訓練目標。這些技術在DeepSeek-V2中已經得到驗證,并在DeepSeek-V3中得到進一步優化。
社區反響與未來展望
1. **專家高度評價:** 多位知名AI科學家,如Meta AI研究科學家田淵棟、著名AI科學家Andrej Karpathy和創業者賈揚清都對DeepSeek-V3給予了高度評價,認為其在資源有限的情況下取得了卓越的成果,并標志著分布式推理時代的到來。
2. **社區積極參與:** DeepSeek-V3開源后,迅速獲得了廣泛關注,在OpenRouter平臺上的使用量已增長3倍。用戶們紛紛分享使用體驗,進一步推動了社區的活躍度。
3. **長上下文擴展:** DeepSeek-V3通過兩階段擴展訓練,能夠處理長達128K的輸入,并在長文本任務中表現出穩健的性能。
技術細節
1. **架構:** DeepSeek-V3采用MLA和DeepSeekMoE架構,并使用多token預測(MTP)訓練目標。
2. **預訓練數據:** DeepSeek-V3使用14.8萬億高質量token進行預訓練,并優化了數學和編程樣本的比例,擴展了多語言覆蓋范圍。
3. **模型超參數:** Transformer層數為61,隱藏層維度為7168,注意力頭數量為128,每個頭的維度為128。
4. **后訓練:** DeepSeek-V3進行了監督式微調和強化學習等后訓練。
DeepSeek-V3的出現,再次點燃了人們對開源大模型的熱情,也為大模型技術的發展提供了新的方向和思路。其高效的訓練方法和強大的性能,有望推動AI技術在更多領域的應用。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構