<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        AIGC動態1年前 (2024)發布 量子位
        383 0 0

        Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        AIGC動態歡迎閱讀

        原標題:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量
        關鍵字:集群,故障,問題,團隊,模型
        文章來源:量子位
        內容字數:0字

        內容摘要:


        西風 發自 凹非寺量子位 | 公眾號 QbitAI每3個小時1次、平均1天8次,Llama 3.1 405B預訓練老出故障,H100是罪魁禍首?
        最近有人從Meta發布的92頁超長Llama 3.1論文中發現了華點:
        Llama 3.1在為期54天的預訓練期間,經歷了共466次任務中斷。其中只有47次是計劃內的,419次純屬意外,意外中78%已確認或懷疑是硬件問題導致。
        而且GPU問題最嚴重,占了58.7%。
        Llama 3.1 405模型是在一個含16384塊Nvidia H100 80GB GPU集群上進行訓練的。雖說針對大規模系統有句老話:唯一確定的就是會出故障。
        但這一問題還是引起不少網友關注。
        放慢速度,check一下產品吧。
        老出故障,咋整?具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具體到是由HBM3內存故障引起。
        鑒于H100的700W高功耗和熱應力,出現這樣的結果也并不意外。
        有意思的是,54天內只有兩次是CPU出現了故障。
        除了GPU外的另一半故障由眾多因素導致,比如軟件Bug、網


        原文鏈接:Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: www视频在线观看免费| 无码乱肉视频免费大全合集| jyzzjyzz国产免费观看| 黄页免费在线观看| 成人黄色免费网址| 四虎永久成人免费影院域名| 亚洲中文久久精品无码| 亚洲女人18毛片水真多| 成人免费观看男女羞羞视频| 亚洲免费网站在线观看| 亚洲国产av美女网站| 黄色视频在线免费观看| 一本岛高清v不卡免费一三区| 亚洲理论在线观看| 久久久WWW免费人成精品| 亚洲美女又黄又爽在线观看| 亚洲精品无码久久久久牙蜜区| 今天免费中文字幕视频| 久久久久久亚洲精品成人| 日本永久免费a∨在线视频| 西西大胆无码视频免费| 亚洲av中文无码乱人伦在线r▽| 老司机亚洲精品影院在线观看| 亚洲黄色免费网址| 国产成A人亚洲精V品无码性色| 色九月亚洲综合网| 情人伊人久久综合亚洲| 久热中文字幕在线精品免费| 亚洲国产精品无码中文lv | 黄色一级视频免费观看| 国内精品乱码卡1卡2卡3免费 | 一区二区三区精品高清视频免费在线播放 | 成年女人18级毛片毛片免费 | 亚洲日韩小电影在线观看| 久久国产免费一区| 亚洲宅男天堂在线观看无病毒| 最近中文字幕免费2019| 久久精品国产精品亚洲艾草网| 精品国产免费人成电影在线观看| 亚洲丰满熟女一区二区哦| 亚洲综合区小说区激情区|