零一萬(wàn)物面向萬(wàn)卡集群的AI基礎(chǔ)設(shè)施建設(shè)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:零一萬(wàn)物面向萬(wàn)卡集群的AI基礎(chǔ)設(shè)施建設(shè)
關(guān)鍵字:模型,華為,方案,網(wǎng)絡(luò),技術(shù)
文章來(lái)源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大模型時(shí)代最火AI芯片峰會(huì)來(lái)啦!!9月6-7日,由芯東西聯(lián)合主辦的2024全球AI芯片峰會(huì)將在北京舉行。峰會(huì)設(shè)有數(shù)據(jù)中心AI芯片、智算集群等7大板塊。目前,AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng),云天勵(lì)飛副總裁、芯片業(yè)務(wù)線(xiàn)總經(jīng)理李?lèi)?ài)軍,清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲等25+嘉賓/企業(yè)已確認(rèn)出席并演講。掃名~摘要
分享了構(gòu)建 AI 2.0時(shí)代的萬(wàn)卡集群的經(jīng)驗(yàn)和成果。包括大模型訓(xùn)練進(jìn)展、主網(wǎng)與存儲(chǔ)方案、調(diào)度監(jiān)控、產(chǎn)品設(shè)計(jì)和展示等方面。
存在問(wèn)題
基礎(chǔ)設(shè)施建設(shè):需要構(gòu)建支撐大模型訓(xùn)練的基礎(chǔ)設(shè)施,高功率需求 、冷卻效率、計(jì)算存儲(chǔ)通信網(wǎng)絡(luò)等高效率。
電力能源:GPU 服務(wù)器高功率需求與傳統(tǒng)數(shù)據(jù)中心電力供應(yīng)不匹配。
大模型訓(xùn)練需求:支持千億到萬(wàn)億AI 模型訓(xùn)練加速。
網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)優(yōu)化:需要優(yōu)化網(wǎng)絡(luò)以降低延遲并提高效率。
網(wǎng)絡(luò)協(xié)議選型:高性能計(jì)算需高吞吐、低延遲網(wǎng)絡(luò)
存儲(chǔ)解決方案:需要高性能和高可用性的存儲(chǔ)系統(tǒng)。
調(diào)度系統(tǒng)智能化:需要無(wú)人值守的智能調(diào)度系統(tǒng)。
可觀測(cè)性:需要對(duì)集群狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控和故障預(yù)測(cè)。
解決方案
基礎(chǔ)設(shè)施:構(gòu)建了世界一流的 基礎(chǔ)設(shè)施,包括選址、電力供應(yīng)、數(shù)
原文鏈接:零一萬(wàn)物面向萬(wàn)卡集群的AI基礎(chǔ)設(shè)施建設(shè)
聯(lián)系作者
文章來(lái)源:智猩猩AGI
作者微信:
作者簡(jiǎn)介: