Llama3.1訓(xùn)練平均3小時(shí)故障一次，H100萬卡集群好脆弱，氣溫波動(dòng)都會(huì)影響吞吐量

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Llama3.1訓(xùn)練平均3小時(shí)故障一次，H100萬卡集群好脆弱，氣溫波動(dòng)都會(huì)影響吞吐量
關(guān)鍵字：集群,故障,問題,團(tuán)隊(duì),模型
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI每3個(gè)小時(shí)1次、平均1天8次，Llama 3.1 405B預(yù)訓(xùn)練老出故障，H100是罪魁禍?zhǔn)祝?br />最近有人從Meta發(fā)布的92頁超長Llama 3.1論文中發(fā)現(xiàn)了華點(diǎn)：
Llama 3.1在為期54天的預(yù)訓(xùn)練期間，經(jīng)歷了共466次任務(wù)中斷。其中只有47次是計(jì)劃內(nèi)的，419次純屬意外，意外中78%已確認(rèn)或懷疑是硬件問題導(dǎo)致。
而且GPU問題最嚴(yán)重，占了58.7%。
Llama 3.1 405模型是在一個(gè)含16384塊Nvidia H100 80GB GPU集群上進(jìn)行訓(xùn)練的。雖說針對大規(guī)模系統(tǒng)有句老話：唯一確定的就是會(huì)出故障。
但這一問題還是引起不少網(wǎng)友關(guān)注。
放慢速度，check一下產(chǎn)品吧。
老出故障，咋整？具體來看，在419次意外中斷中，148 次（30.1%）是由各種GPU故障（包括NVLink故障）引起的，72次（17.2%）可以具體到是由HBM3內(nèi)存故障引起。
鑒于H100的700W高功耗和熱應(yīng)力，出現(xiàn)這樣的結(jié)果也并不意外。
有意思的是，54天內(nèi)只有兩次是CPU出現(xiàn)了故障。
除了GPU外的另一半故障由眾多因素導(dǎo)致，比如軟件Bug、網(wǎng)

原文鏈接：Llama3.1訓(xùn)練平均3小時(shí)故障一次，H100萬卡集群好脆弱，氣溫波動(dòng)都會(huì)影響吞吐量