字節(jié)萬卡集群技術(shù)細(xì)節(jié)公開:2天搞定GPT-3訓(xùn)練,算力利用率超英偉達(dá)Megatron-LM
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)萬卡集群技術(shù)細(xì)節(jié)公開:2天搞定GPT-3訓(xùn)練,算力利用率超英偉達(dá)Megatron-LM
關(guān)鍵字:騰訊,字節(jié)跳動(dòng),模型,集群,字節(jié)
文章來源:量子位
內(nèi)容字?jǐn)?shù):4070字
內(nèi)容摘要:
魚羊 發(fā)自 凹非寺量子位 | 公眾號 QbitAI隨著對Sora技術(shù)分析的展開,AI基礎(chǔ)設(shè)施的重要性愈發(fā)凸顯。
來自字節(jié)和北大的一篇新論文在此時(shí)吸引關(guān)注:
文章披露,字節(jié)搭建起的萬卡集群,能在1.75天內(nèi)完成GPT-3規(guī)模模型(175B)的訓(xùn)練。
具體來說,字節(jié)提出了一個(gè)名為MegaScale的生產(chǎn)系統(tǒng),旨在解決在萬卡集群上訓(xùn)練大模型時(shí)面臨的效率和穩(wěn)定性挑戰(zhàn)。
在12288塊GPU上訓(xùn)練1750億參數(shù)大語言模型時(shí),MegaScale實(shí)現(xiàn)了55.2%的算力利用率(MFU),是英偉達(dá)Megatron-LM的1.34倍。
論文還透露,截止2023年9月,字節(jié)已建立起超過1萬張卡的Ampere架構(gòu)GPU(A100/A800)集群,目前正在建設(shè)大規(guī)模Hopper架構(gòu)(H100/H800)集群。
適用于萬卡集群的生產(chǎn)系統(tǒng)大模型時(shí)代,GPU的重要性已無需贅述。
但大模型的訓(xùn)練,并不是把卡的數(shù)量拉滿就能直接開干的——當(dāng)GPU集群的規(guī)模來到“萬”字級別,如何實(shí)現(xiàn)高效、穩(wěn)定的訓(xùn)練,本身就是一個(gè)頗具挑戰(zhàn)的工程問題。
第一重挑戰(zhàn):效率。
訓(xùn)練大語言模型并非簡單的并行任務(wù),需要在多個(gè)GPU之間分布模型,并且這些
原文鏈接:字節(jié)萬卡集群技術(shù)細(xì)節(jié)公開:2天搞定GPT-3訓(xùn)練,算力利用率超英偉達(dá)Megatron-LM
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破