網(wǎng)絡(luò)架構(gòu)如何支持超萬卡的大規(guī)模 AI 訓(xùn)練?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:網(wǎng)絡(luò)架構(gòu)如何支持超萬卡的大規(guī)模 AI 訓(xùn)練?
關(guān)鍵字:網(wǎng)絡(luò),集群,模型,架構(gòu),阿里
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
演講嘉賓 | 席永青
AI 訓(xùn)練場(chǎng)景的算力 Scaling 核心是網(wǎng)絡(luò),依賴于大規(guī)模、高性能的數(shù)據(jù)中心網(wǎng)絡(luò)集群來實(shí)現(xiàn)算力的規(guī)模擴(kuò)展,為此,阿里云設(shè)計(jì)了 HPN7.0 架構(gòu)系統(tǒng),基于 Ethernet 來構(gòu)建超大規(guī)模、極致性能的網(wǎng)絡(luò)互聯(lián)。
本文整理自阿里巴巴資深網(wǎng)絡(luò)架構(gòu)師席永青在 AICon 2024 北京《大模型基礎(chǔ)設(shè)施構(gòu)建》專題的演講“網(wǎng)絡(luò)驅(qū)動(dòng)大規(guī)模 AI 訓(xùn)練 – 阿里云可預(yù)期網(wǎng)絡(luò) HPN 7.0 架構(gòu)”,內(nèi)容經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嫛T?6 月 14-15 日即將舉辦的 ArchSummit 深圳上,InfoQ 策劃了《智算平臺(tái)建設(shè)與應(yīng)用實(shí)踐》和《大模型基礎(chǔ)框架》專題,將邀請(qǐng)業(yè)內(nèi)專家進(jìn)一步深入分享企業(yè)在大模型基礎(chǔ)層面的建設(shè)實(shí)踐。目前,大會(huì)議程已全部上線,感興趣的同學(xué)請(qǐng)鎖定大會(huì)官網(wǎng)站:https://archsummit.infoq.cn/2024/shenzhen/schedule
大家好,我是席永青,來自阿里云。阿里云的 PAI 靈駿想必大家都熟悉,已經(jīng)是 AI 領(lǐng)域的標(biāo)桿算力平臺(tái),服務(wù)了眾多知名的 AI 大模型公司。我有幸負(fù)責(zé)靈駿智算集群網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。今天非常高興
原文鏈接:網(wǎng)絡(luò)架構(gòu)如何支持超萬卡的大規(guī)模 AI 訓(xùn)練?
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。