訓(xùn)練一次經(jīng)歷 419 次意外故障!英偉達(dá) GPU 也差點(diǎn)玩不轉(zhuǎn) 405B 模型,全靠 Meta 工程師后天救場!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:訓(xùn)練一次經(jīng)歷 419 次意外故障!英偉達(dá) GPU 也差點(diǎn)玩不轉(zhuǎn) 405B 模型,全靠 Meta 工程師后天救場!
關(guān)鍵字:故障,模型,問題,集群,通信
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
整理 | 華衛(wèi)
最近,Meta 在一份研究報(bào)告中揭示了訓(xùn)練 Llama 3 405B 參數(shù)模型的重大挑戰(zhàn):該系統(tǒng)在包含 16384 個(gè) Nvidia H100 GPU 的集群上運(yùn)行,在訓(xùn)練期間平均每三個(gè)小時(shí)就發(fā)生一次故障, 54 天內(nèi)經(jīng)歷了 419 次意外故障。
這些故障中,有一半以上的情況都?xì)w因于 GPU 及其高帶寬內(nèi)存 (HBM3)。由于 GPU 訓(xùn)練任務(wù)的規(guī)模龐大和高度同步,Llama 3 很容易發(fā)生故障,且單個(gè) GPU 故障就會(huì)中斷整個(gè)訓(xùn)練過程,導(dǎo)致必須重新啟動(dòng)。
不過,據(jù)介紹,盡管存在這些問題,Llama 3 團(tuán)隊(duì)仍在支持自動(dòng)化集群維護(hù)(例如固件和 Linux 內(nèi)核升級)的同時(shí),實(shí)現(xiàn)了超過 90% 的有效訓(xùn)練時(shí)間(有效訓(xùn)練時(shí)間是指實(shí)際用于有用訓(xùn)練的時(shí)間與經(jīng)過時(shí)間的比例)。
正如一句古老的超級計(jì)算諺語所言,“大規(guī)模系統(tǒng)唯一可以確定的就是失敗。”超級計(jì)算機(jī)是極其復(fù)雜的設(shè)備,使用數(shù)萬個(gè)處理器、數(shù)十萬個(gè)其他芯片和數(shù)百英里長的電纜。在復(fù)雜的超級計(jì)算機(jī)中,每隔幾個(gè)小時(shí)出現(xiàn)故障是很正常的,而開發(fā)人員的主要訣竅就是確保系統(tǒng)在出現(xiàn)這種局部故障時(shí)仍能正常運(yùn)行。58.7% 意外中斷源于 GPU,
原文鏈接:訓(xùn)練一次經(jīng)歷 419 次意外故障!英偉達(dá) GPU 也差點(diǎn)玩不轉(zhuǎn) 405B 模型,全靠 Meta 工程師后天救場!
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介: