GPU訓Llama 3.1瘋狂崩潰，竟有大廠用CPU服務器跑千億參數大模型？

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：GPU訓Llama 3.1瘋狂崩潰，竟有大廠用CPU服務器跑千億參數大模型？
關鍵字：模型,參數,報告,內存,張量
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】是時候用CPU通用服務器跑千億參數大模型了！馬斯克19天建成由10萬塊H100串聯的世界最大超算，已全力投入Grok 3的訓練中。
與此同時，外媒爆料稱，OpenAI和微軟聯手打造的下一個超算集群，將由10萬塊GB200組成。
在這場AI爭霸賽中，各大科技公司們卯足勁加大對GPU的投資，似乎在暗示著擁有更多、更強大的GPU，就能讓自己立于不敗之地。
然而，這種對高端GPU的狂熱追求，并非在所有情況下，都是完美無缺的解決方案。
Pytorch之父表示，技術報告中暗藏了很多基礎設施的有趣細節，包括如何并行化，如何讓系統更可靠等等
就拿穩定性來說，在Llama 3.1訓練的54天里，Meta的1.6萬塊H100集群總共遇到了419次意外中斷，相當于平均每3小時發生一次。
而在這之中，有148次（30.1%）是由于各種GPU故障引起的。
相比之下，由CPU故障引發的中斷，只有2次。
另一方面，想要把Llama 3.1 405B跑起來，還得搭配2臺8×H100的DGX工作站才行——即1280GB的顯存。
曾經有位勇士嘗試用一張4090運行，結果等了30分鐘

原文鏈接：GPU訓Llama 3.1瘋狂崩潰，竟有大廠用CPU服務器跑千億參數大模型？