標簽:集群

國產(chǎn)GPU如何系統(tǒng)性的解決大模型算力難題 | 演講預告

生成式AI時代,大模型及AIGC的快速發(fā)展推動著計算需求的高速增長。 從服務器到邊緣,再到AI手機、AI PC、AIoT、智能汽車,各個領(lǐng)域的AI芯片玩家都面臨著新的...
閱讀原文

尋找中國智算力量!2024年度中國AI生產(chǎn)力創(chuàng)新先鋒企業(yè)榜,速來申報

歡迎報名或推薦優(yōu)秀的中國智算集群解決方案提供商和AI芯片企業(yè)。 作者|ZeR0 編輯|漠影 2024年9月6日~7日,2024全球AI芯片峰會(GACS 2024)將在北京舉行。本...
閱讀原文

小扎自曝砸重金訓Llama 4,24萬塊GPU齊發(fā)力!預計2025年發(fā)布

新智元報道編輯:桃子 【新智元導讀】沒想到,多模態(tài)Llama 4已經(jīng)緊鑼密鼓地開始訓練中了。小扎表示,將投入Llama 3的十倍計算量訓練模型,預計2025年發(fā)布。他...
閱讀原文

缺卡、缺電、缺組網(wǎng)技術(shù)!誰能為馬斯克構(gòu)建出全球最強大的 10 萬卡超級集群?

編譯 | 核子可樂、Tina 埃隆·馬斯克掌控的那幾家公司——包括 SpaceX、特斯拉、xAI 乃至 X(原 Twitter)——都需要大量的 GPU,而且也都是為自己的特定 AI 或者...
閱讀原文

Llama3.1訓練平均3小時故障一次,H100萬卡集群好脆弱,氣溫波動都會影響吞吐量

西風 發(fā)自 凹非寺量子位 | 公眾號 QbitAI每3個小時1次、平均1天8次,Llama 3.1 405B預訓練老出故障,H100是罪魁禍首? 最近有人從Meta發(fā)布的92頁超長Llama 3....
閱讀原文

訓練一次經(jīng)歷 419 次意外故障!英偉達 GPU 也差點玩不轉(zhuǎn) 405B 模型,全靠 Meta 工程師后天救場!

整理 | 華衛(wèi) 最近,Meta 在一份研究報告中揭示了訓練 Llama 3 405B 參數(shù)模型的重大挑戰(zhàn):該系統(tǒng)在包含 16384 個 Nvidia H100 GPU 的集群上運行,在訓練期間...
閱讀原文

1.6萬塊H100訓Llama 3.1,每3小時故障1次!罪魁禍首竟是GPU和HBM3顯存

新智元報道編輯:庸庸 好困 【新智元導讀】在Meta的Llama 3.1訓練過程中,其運行的1.6萬個GPU訓練集群每3小時就會出現(xiàn)一次故障,意外故障中的半數(shù)都是由英偉...
閱讀原文

世界最強AI訓練集群上線

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技 文丨俊俊 特斯拉首席執(zhí)行官埃隆·馬斯克(Elon Musk)接對當前人工智能領(lǐng)域普遍缺失的“親人類”原則表達了深切憂慮,所以從OpenA...
閱讀原文

【深度萬文】10 萬卡 H100 集群的盡頭……

7月25日上午10點,中國科學技術(shù)大學與微軟亞洲研究院聯(lián)合培養(yǎng)博士生張博文將在智猩猩直播講解微軟亞洲研究院開源成果GaussianCube,主題為《結(jié)構(gòu)化3DGS為高質(zhì)...
閱讀原文

從機到700億參數(shù)大模型,這里有份教程,還有現(xiàn)成可用的腳本

選自imbue.com 作者:Imbue 團隊 機器之心編譯 編輯:panda我們知道 LLM 是在大規(guī)模計算機集群上使用海量數(shù)據(jù)訓練得到的,機器之心曾介紹過不少用于輔助和改...
閱讀原文

馬斯克啟動全球最大AI集群,由10萬個英偉達H100組成

點擊上方藍字關(guān)注我們“埃隆·馬斯克領(lǐng)導的xAI孟菲斯超級集群啟動,配備十萬個Nvidia H100 GPU,旨在年底前訓練出世界最強AI,此舉或?qū)⒅厮苋駻I競爭格局。科...
閱讀原文

電腦平板組AI集群,在家就能跑400B大模型,GitHub狂攬2.5K星?

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI不用H100,三臺蘋果電腦就能帶動400B大模型。 背后的功臣,是GitHub上的一個開源分布式AI推理框架,已經(jīng)斬獲了2.5k...
閱讀原文

急缺!高校GPU告急,李飛飛辛頓求救

全球?qū)W術(shù)界正面臨系統(tǒng)性的GPU短缺問題。 編譯|陳駿達 編輯|Panken 智東西7月18日消息,據(jù)外媒報道,由于AI算力集群價格高企與大企業(yè)訂單擠兌,許多美國高校正...
閱讀原文

AI爭霸戰(zhàn)開啟!OpenAI急建10萬塊GB200超算,馬斯克10萬塊H100月末開訓

新智元報道編輯:桃子 【新智元導讀】馬斯克官宣xAI建造的世界最大超算集群,由10萬塊H100搭建,預計本月末開始投入訓練。另一邊,OpenAI再次加碼,將打造由1...
閱讀原文

太酷了!iPhone、iPad、MacBook老舊設備組成異構(gòu)集群,能跑Llama 3

機器之心報道 機器之心編輯部假如你有閑置的設備,或許可以試一試。這次,你手里的硬件設備也能在 AI 領(lǐng)域大展拳腳了。 將 iPhone、iPad、Macbook 進行組合,...
閱讀原文