Llama3.1訓(xùn)練平均3小時(shí)故障一次,H100萬卡集群好脆弱,氣溫波動(dòng)都會(huì)影響吞吐量

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Llama3.1訓(xùn)練平均3小時(shí)故障一次,H100萬卡集群好脆弱,氣溫波動(dòng)都會(huì)影響吞吐量
關(guān)鍵字:集群,故障,問題,團(tuán)隊(duì),模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI每3個(gè)小時(shí)1次、平均1天8次,Llama 3.1 405B預(yù)訓(xùn)練老出故障,H100是罪魁禍?zhǔn)祝?br />最近有人從Meta發(fā)布的92頁超長Llama 3.1論文中發(fā)現(xiàn)了華點(diǎn):
Llama 3.1在為期54天的預(yù)訓(xùn)練期間,經(jīng)歷了共466次任務(wù)中斷。其中只有47次是計(jì)劃內(nèi)的,419次純屬意外,意外中78%已確認(rèn)或懷疑是硬件問題導(dǎo)致。
而且GPU問題最嚴(yán)重,占了58.7%。
Llama 3.1 405模型是在一個(gè)含16384塊Nvidia H100 80GB GPU集群上進(jìn)行訓(xùn)練的。雖說針對大規(guī)模系統(tǒng)有句老話:唯一確定的就是會(huì)出故障。
但這一問題還是引起不少網(wǎng)友關(guān)注。
放慢速度,check一下產(chǎn)品吧。
老出故障,咋整?具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具體到是由HBM3內(nèi)存故障引起。
鑒于H100的700W高功耗和熱應(yīng)力,出現(xiàn)這樣的結(jié)果也并不意外。
有意思的是,54天內(nèi)只有兩次是CPU出現(xiàn)了故障。
除了GPU外的另一半故障由眾多因素導(dǎo)致,比如軟件Bug、網(wǎng)
原文鏈接:Llama3.1訓(xùn)練平均3小時(shí)故障一次,H100萬卡集群好脆弱,氣溫波動(dòng)都會(huì)影響吞吐量
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)