AIGC動態歡迎閱讀
原標題:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量
關鍵字:集群,故障,問題,團隊,模型
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI每3個小時1次、平均1天8次,Llama 3.1 405B預訓練老出故障,H100是罪魁禍首?
最近有人從Meta發布的92頁超長Llama 3.1論文中發現了華點:
Llama 3.1在為期54天的預訓練期間,經歷了共466次任務中斷。其中只有47次是計劃內的,419次純屬意外,意外中78%已確認或懷疑是硬件問題導致。
而且GPU問題最嚴重,占了58.7%。
Llama 3.1 405模型是在一個含16384塊Nvidia H100 80GB GPU集群上進行訓練的。雖說針對大規模系統有句老話:唯一確定的就是會出故障。
但這一問題還是引起不少網友關注。
放慢速度,check一下產品吧。
老出故障,咋整?具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具體到是由HBM3內存故障引起。
鑒于H100的700W高功耗和熱應力,出現這樣的結果也并不意外。
有意思的是,54天內只有兩次是CPU出現了故障。
除了GPU外的另一半故障由眾多因素導致,比如軟件Bug、網
原文鏈接:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...