不要模糊了DeepSeek的真正價值。
原標題:我們應如何看待DeepSeek的557.6萬美元訓練成本?|甲子光年
文章來源:甲子光年
內容字數:13291字
DeepSeek-V3:降本增效的理性解讀
本文探討了DeepSeek-V3大模型訓練成本大幅降低背后的,糾正了部分夸大宣傳,并深入分析了其降本增效的策略。
1. 訓練成本:并非“幾十分之一”
DeepSeek-V3的訓練成本為557.6萬美元,遠低于坊間流傳的“中國AI企業用幾百萬美元的成本打敗了美國AI企業數億美元的投入”的說法。文章指出,這一數字僅包含正式訓練階段的成本,未計入前期研究、消融實驗等“隱性成本”,且計算方式也影響最終結果。通過對標GPT-4、Llama 3.1和Claude 3.5 Sonnet等模型,文章估算了它們的訓練成本,發現DeepSeek-V3的成本雖然大幅降低,但并非達到“幾十分之一”的夸張程度。
2. DeepSeek的降本增效策略
DeepSeek-V3的成功并非偶然,其核心在于算法、框架和硬件的協同優化設計。文章詳細介紹了DeepSeek團隊在四個方面的優化策略:
- 負載均衡優化:采用“Auxiliary-loss-free”方案,避免了傳統MoE模型中輔助損失帶來的負面影響,實現了動態調整專家的負載。
- 通信優化:提出了DualPipe算法,通過重疊計算和通信階段,最大限度地減少GPU空閑時間,并采用雙向流水線機制,提高GPU利用率。
- 內存優化:采用了重計算、使用CPU內存和參數共享等策略,有效降低了內存消耗。
- 計算優化:采用混合精度訓練策略(FP8),加速訓練并減少GPU內存使用。
這些優化策略共同作用,顯著提升了模型訓練效率,從而降低了訓練成本。 DeepSeek在有限的GPU資源和性能下,完成了與Llama 3.1 405B相近的訓練量,體現了其在模型訓練效率上的顯著提升。
3. “小米加”式的成功
文章將DeepSeek的成功比作“小米加”,強調其成功并非依賴于某種單一突破性技術,而是扎實的基礎研究和對細節的極致追求。DeepSeek團隊注重第一性原理的思考,深入理解算法、軟件和硬件的底層邏輯,并進行細致的優化,最終取得了顯著成果。這體現了腳踏實地、持續創新的重要性。
總而言之,DeepSeek-V3的成功是團隊長期努力和技術積累的結果,其降本增效的核心在于對算法、框架和硬件的協同優化設計,而不是簡單的成本優勢。 我們應該理性看待DeepSeek的成就,避免夸大宣傳,也避免低估其技術價值。
聯系作者
文章來源:甲子光年
作者微信:
作者簡介:甲子光年是一家科技智庫,包含智庫、社群、企業服務版塊,立足中國科技創新前沿陣地,動態跟蹤頭部科技企業發展和傳統產業技術升級案例,推動人工智能、大數據、物聯網、云計算、新能源、新材料、信息安全、大健康等科技創新在產業中的應用與落地。