探秘馬斯克全球最大AI集群Colossus:10萬張英偉達(dá) H100,122天建成
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:探秘馬斯克全球最大AI集群Colossus:10萬張英偉達(dá) H100,122天建成
關(guān)鍵字:機(jī)架,熱交換器,集群,數(shù)據(jù)中心,服務(wù)器
文章來源:AI范兒
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
今天,我們將發(fā)布 xAI Colossus 超級(jí)計(jì)算機(jī)之旅。對(duì)于那些聽說過埃隆·馬斯克的 xAI 在孟菲斯建造巨型 AI 超級(jí)計(jì)算機(jī)的人來說,這就是那個(gè)集群。這個(gè)價(jià)值數(shù)十億美元的 AI 集群擁有 100,000 個(gè) NVIDIA H100 GPU,不僅規(guī)模大,而且建造速度快。僅用 122 天,團(tuán)隊(duì)就建造了這個(gè)巨型集群。今天,我們將帶您參觀大樓內(nèi)部。
xAI 的超微液冷機(jī)架Colossus(巨人) 的基本構(gòu)建模塊是 Supermicro (超微)液冷機(jī)架。它由 8 臺(tái) 4U 服務(wù)器組成,每臺(tái)服務(wù)器配備 8 個(gè) NVIDIA H100,每臺(tái)機(jī)架總共有 64 個(gè) GPU。8 臺(tái)這樣的 GPU 服務(wù)器加上一臺(tái)Supermicro 冷卻液分配單元 (CDU)和相關(guān)硬件構(gòu)成了一個(gè) GPU 計(jì)算機(jī)架。
XAI 巨人數(shù)據(jù)中心的超微液冷節(jié)點(diǎn)低角度視圖
這些機(jī)架以八個(gè)為一組排列,共有 512 個(gè) GPU,并通過網(wǎng)絡(luò)連接形成迷你集群,融入到這個(gè)更大的系統(tǒng)中。
XAI 巨人數(shù)據(jù)中心的超微 4U 通用 GPU 液冷服務(wù)器
在這里,xAI 采用了超微的 4U 通用 GPU 系統(tǒng)。這些服務(wù)器是目前市場(chǎng)上最先進(jìn)的人工
原文鏈接:探秘馬斯克全球最大AI集群Colossus:10萬張英偉達(dá) H100,122天建成
聯(lián)系作者
文章來源:AI范兒
作者微信:
作者簡介: