國產(chǎn)之光DeepSeek把AI大佬全炸出來了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開

AIGC動(dòng)態(tài)5個(gè)月前發(fā)布量子位

520 0 0

“有限算力下的美妙工程”

原標(biāo)題：國產(chǎn)之光DeepSeek把AI大佬全炸出來了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開
文章來源：量子位
內(nèi)容字?jǐn)?shù)：6534字

DeepSeek V3：高性能、低成本的開源大模型

本文總結(jié)了DeepSeek V3大語言模型的發(fā)布信息，該模型以其高性能、低成本和完全開源的特點(diǎn)引發(fā)了業(yè)內(nèi)廣泛關(guān)注。

模型性能與成本
DeepSeek V3是一個(gè)參數(shù)量為671B的MoE模型，激活37B，在14.8T高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。其性能超越了Llama 3.1 405B等開源模型，甚至與GPT-4o和Claude 3.5 Sonnet等頂級(jí)閉源模型不相上下。更令人驚嘆的是，其訓(xùn)練成本僅為L(zhǎng)lama 3 405B的1/11，約為557.6萬美元。而其API價(jià)格也遠(yuǎn)低于競(jìng)爭(zhēng)對(duì)手，僅為Claude 3.5 Sonnet的9%。DeepSeek V3在性能和成本之間取得了最佳平衡，成為性價(jià)比最高的模型之一。
高效的訓(xùn)練策略
DeepSeek V3的低成本訓(xùn)練歸功于其在算法、框架和硬件方面的協(xié)同優(yōu)化。具體包括：創(chuàng)新的負(fù)載均衡策略、無輔助損失的負(fù)載均衡策略、多Token預(yù)測(cè)目標(biāo)（MTP）、FP8混合精度訓(xùn)練框架、DualPipe高效流水線并行算法以及高效的跨節(jié)點(diǎn)all-to-all通信內(nèi)核等。這些策略使得DeepSeek V3的訓(xùn)練時(shí)間大幅縮短，僅用了不到2個(gè)月，耗費(fèi)了約280萬GPU小時(shí)。
關(guān)鍵技術(shù)細(xì)節(jié)
DeepSeek V3的MoE由256個(gè)路由專家和1個(gè)共享專家組成，每個(gè)token會(huì)激活8個(gè)專家，并確保每個(gè)token最多被發(fā)送到4個(gè)節(jié)點(diǎn)。模型還引入了冗余專家部署策略，以實(shí)現(xiàn)推理階段的負(fù)載均衡。此外，DeepSeek V3還將推理能力從長(zhǎng)思維鏈模型中蒸餾到標(biāo)準(zhǔn)模型上，顯著提高了推理性能。
開源與應(yīng)用
DeepSeek V3已完全開源，包括原生FP8權(quán)重和從FP8到BF16的轉(zhuǎn)換腳本。多個(gè)框架已支持FP8或BF16推理。用戶可以通過官網(wǎng)與模型進(jìn)行對(duì)話，并通過API進(jìn)行訪問。其部署也十分便捷，只需幾行代碼即可部署到Gradio。
實(shí)測(cè)效果與評(píng)價(jià)
實(shí)測(cè)結(jié)果顯示，DeepSeek V3在多個(gè)測(cè)試中表現(xiàn)出色，例如準(zhǔn)確回答了關(guān)于自身版本的問題，并成功解決了復(fù)雜的推理任務(wù)。業(yè)內(nèi)專家對(duì)DeepSeek V3給予了高度評(píng)價(jià)，認(rèn)為其是“優(yōu)雅”的、“黑科技”的，并稱其降低了有限算力預(yù)算下進(jìn)行模型預(yù)訓(xùn)練的門檻。
未來展望
目前DeepSeek V3暫不支持多模態(tài)輸入輸出，但其高性能、低成本和完全開源的特點(diǎn)使其具有巨大的發(fā)展?jié)摿ΑＮ磥恚珼eepSeek V3有望在更多領(lǐng)域得到廣泛應(yīng)用。

聯(lián)系作者

文章來源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 671B參數(shù)大模型 # AI大模型訓(xùn)練成本 # DeepSeek # 國產(chǎn)AI大模型 # 模型訓(xùn)練算力

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

國產(chǎn)之光DeepSeek把AI大佬全炸出來了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開

“有限算力下的美妙工程”

DeepSeek V3：高性能、低成本的開源大模型

模型性能與成本

高效的訓(xùn)練策略

關(guān)鍵技術(shù)細(xì)節(jié)

開源與應(yīng)用

實(shí)測(cè)效果與評(píng)價(jià)

未來展望

聯(lián)系作者

英偉達(dá)CUDA的護(hù)城河到底有多深？

某機(jī)構(gòu)：JSON 輸出會(huì)讓 AI 變笨！大佬：是你們太菜了

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)