國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓練只需此前算力1/10,細節(jié)全公開
“有限算力下的美妙工程”
原標題:國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓練只需此前算力1/10,細節(jié)全公開
文章來源:量子位
內(nèi)容字數(shù):6534字
DeepSeek V3:高性能、低成本的開源大模型
本文總結(jié)了DeepSeek V3大語言模型的發(fā)布信息,該模型以其高性能、低成本和完全開源的特點引發(fā)了業(yè)內(nèi)廣泛關(guān)注。
模型性能與成本
DeepSeek V3是一個參數(shù)量為671B的MoE模型,激活37B,在14.8T高質(zhì)量token上進行了預訓練。其性能超越了Llama 3.1 405B等開源模型,甚至與GPT-4o和Claude 3.5 Sonnet等頂級閉源模型不相上下。更令人驚嘆的是,其訓練成本僅為Llama 3 405B的1/11,約為557.6萬美元。而其API價格也遠低于競爭對手,僅為Claude 3.5 Sonnet的9%。DeepSeek V3在性能和成本之間取得了最佳平衡,成為性價比最高的模型之一。
高效的訓練策略
DeepSeek V3的低成本訓練歸功于其在算法、框架和硬件方面的協(xié)同優(yōu)化。具體包括:創(chuàng)新的負載均衡策略、無輔助損失的負載均衡策略、多Token預測目標(MTP)、FP8混合精度訓練框架、DualPipe高效流水線并行算法以及高效的跨節(jié)點all-to-all通信內(nèi)核等。這些策略使得DeepSeek V3的訓練時間大幅縮短,僅用了不到2個月,耗費了約280萬GPU小時。
關(guān)鍵技術(shù)細節(jié)
DeepSeek V3的MoE由256個路由專家和1個共享專家組成,每個token會激活8個專家,并確保每個token最多被發(fā)送到4個節(jié)點。模型還引入了冗余專家部署策略,以實現(xiàn)推理階段的負載均衡。此外,DeepSeek V3還將推理能力從長思維鏈模型中蒸餾到標準模型上,顯著提高了推理性能。
開源與應(yīng)用
DeepSeek V3已完全開源,包括原生FP8權(quán)重和從FP8到BF16的轉(zhuǎn)換腳本。多個框架已支持FP8或BF16推理。用戶可以通過官網(wǎng)與模型進行對話,并通過API進行訪問。其部署也十分便捷,只需幾行代碼即可部署到Gradio。
實測效果與評價
實測結(jié)果顯示,DeepSeek V3在多個測試中表現(xiàn)出色,例如準確回答了關(guān)于自身版本的問題,并成功解決了復雜的推理任務(wù)。業(yè)內(nèi)專家對DeepSeek V3給予了高度評價,認為其是“優(yōu)雅”的、“黑科技”的,并稱其降低了有限算力預算下進行模型預訓練的門檻。
未來展望
目前DeepSeek V3暫不支持多模態(tài)輸入輸出,但其高性能、低成本和完全開源的特點使其具有巨大的發(fā)展?jié)摿ΑN磥恚珼eepSeek V3有望在更多領(lǐng)域得到廣泛應(yīng)用。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破