國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開
“有限算力下的美妙工程”
原標(biāo)題:國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開
文章來源:量子位
內(nèi)容字?jǐn)?shù):6534字
DeepSeek V3:高性能、低成本的開源大模型
本文總結(jié)了DeepSeek V3大語言模型的發(fā)布信息,該模型以其高性能、低成本和完全開源的特點(diǎn)引發(fā)了業(yè)內(nèi)廣泛關(guān)注。
模型性能與成本
DeepSeek V3是一個(gè)參數(shù)量為671B的MoE模型,激活37B,在14.8T高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。其性能超越了Llama 3.1 405B等開源模型,甚至與GPT-4o和Claude 3.5 Sonnet等頂級(jí)閉源模型不相上下。更令人驚嘆的是,其訓(xùn)練成本僅為L(zhǎng)lama 3 405B的1/11,約為557.6萬美元。而其API價(jià)格也遠(yuǎn)低于競(jìng)爭(zhēng)對(duì)手,僅為Claude 3.5 Sonnet的9%。DeepSeek V3在性能和成本之間取得了最佳平衡,成為性價(jià)比最高的模型之一。
高效的訓(xùn)練策略
DeepSeek V3的低成本訓(xùn)練歸功于其在算法、框架和硬件方面的協(xié)同優(yōu)化。具體包括:創(chuàng)新的負(fù)載均衡策略、無輔助損失的負(fù)載均衡策略、多Token預(yù)測(cè)目標(biāo)(MTP)、FP8混合精度訓(xùn)練框架、DualPipe高效流水線并行算法以及高效的跨節(jié)點(diǎn)all-to-all通信內(nèi)核等。這些策略使得DeepSeek V3的訓(xùn)練時(shí)間大幅縮短,僅用了不到2個(gè)月,耗費(fèi)了約280萬GPU小時(shí)。
關(guān)鍵技術(shù)細(xì)節(jié)
DeepSeek V3的MoE由256個(gè)路由專家和1個(gè)共享專家組成,每個(gè)token會(huì)激活8個(gè)專家,并確保每個(gè)token最多被發(fā)送到4個(gè)節(jié)點(diǎn)。模型還引入了冗余專家部署策略,以實(shí)現(xiàn)推理階段的負(fù)載均衡。此外,DeepSeek V3還將推理能力從長(zhǎng)思維鏈模型中蒸餾到標(biāo)準(zhǔn)模型上,顯著提高了推理性能。
開源與應(yīng)用
DeepSeek V3已完全開源,包括原生FP8權(quán)重和從FP8到BF16的轉(zhuǎn)換腳本。多個(gè)框架已支持FP8或BF16推理。用戶可以通過官網(wǎng)與模型進(jìn)行對(duì)話,并通過API進(jìn)行訪問。其部署也十分便捷,只需幾行代碼即可部署到Gradio。
實(shí)測(cè)效果與評(píng)價(jià)
實(shí)測(cè)結(jié)果顯示,DeepSeek V3在多個(gè)測(cè)試中表現(xiàn)出色,例如準(zhǔn)確回答了關(guān)于自身版本的問題,并成功解決了復(fù)雜的推理任務(wù)。業(yè)內(nèi)專家對(duì)DeepSeek V3給予了高度評(píng)價(jià),認(rèn)為其是“優(yōu)雅”的、“黑科技”的,并稱其降低了有限算力預(yù)算下進(jìn)行模型預(yù)訓(xùn)練的門檻。
未來展望
目前DeepSeek V3暫不支持多模態(tài)輸入輸出,但其高性能、低成本和完全開源的特點(diǎn)使其具有巨大的發(fā)展?jié)摿ΑN磥恚珼eepSeek V3有望在更多領(lǐng)域得到廣泛應(yīng)用。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破