AIGC動態歡迎閱讀
原標題:Meta、BAT、字節、零一萬物萬卡集群構建匯總
關鍵字:騰訊,交換機,集群,網絡,解讀
文章來源:智猩猩AGI
內容字數:0字
內容摘要:
生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯片專場、智算集群技術論壇等7大板塊。目前,來自AMD、高通、Habana、壁仞科技、摩爾線程、蘋芯科技、億鑄科技、凌川科技、云天勵飛、中國移動研究院、北極雄芯等40+企業的嘉賓已確認演講或討論。掃碼申請免費票或購票參會~01Meta RoCE網絡Meta RoCE論文網絡拓撲
基于RoCE的AI集群由24K個GPU組成,通過一個三層Clos網絡連接。
在底層,每個機架有16個GPU分布在兩臺服務器上,并通過一個Minipack2 ToR交換機連接。
在中層,192個這樣的機架通過集換機連接,形成一個擁有3,072個GPU的集群,具有完整的雙切帶寬,確保沒有過訂閱。
在頂層,同一數據中心大樓內的8個這樣的集群通過聚合交換機連接,形成一個24K GPU的集群。
聚合層的網絡連接沒有保持完整的雙切帶寬,而是有一個1:7的過訂閱比率。LLama3.1模型4D并行算法和訓練作業調度程序都針對網絡拓撲進行了優化,以達到最小化跨集群
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...