大模型千卡訓(xùn)練總結(jié)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型千卡訓(xùn)練總結(jié)
關(guān)鍵字:知乎,梯度,節(jié)點,侵權(quán),通信
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
開講預(yù)約導(dǎo)讀文章轉(zhuǎn)載自知乎,作者為你的真實姓名,本文只作者對知乎問題“如何判斷候選人有沒有千卡GPU集群的訓(xùn)練經(jīng)驗?”的回答和總結(jié)。
原文地址:https://www.zhihu.com/question/650979052/answer/3501160453
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。最近看到知乎一個回答,把千卡訓(xùn)練的難度吹上天了。但其實真正用過千卡就會發(fā)現(xiàn)也就那么幾個點。于是想寫一篇文章簡單講講。
本文將包括3個部分:首先我們將討論千卡訓(xùn)練的難題,以及應(yīng)該在什么時候使用千卡訓(xùn)練;接著,我們將討論如何在一千張卡上開始訓(xùn)練,如何讓他達(dá)到近乎線性的性能提升;最后我們將展開討論一些千卡訓(xùn)練當(dāng)中仍然懸而未決(至少對于開源社區(qū)來說)的問題。
01為什么千卡訓(xùn)練是困難的?千卡訓(xùn)練和八卡訓(xùn)練的區(qū)別是—顯卡多了一百多倍。
這意味著什么呢?
通信時間增加
故障概率增加
這倆問題都很好理解。
時間上,PyTorch內(nèi)部支持NCCL/Gloo/MPI三個通信后端(請務(wù)必使用NCCL。其中AllReduce操作會會根據(jù)具體硬件配置走Ring AllReduce和Tree AllReduce
原文鏈接:大模型千卡訓(xùn)練總結(jié)
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介: