Yandex 開源?LLM 訓(xùn)練工具,可節(jié)省高達?20% 的?GPU 資源
AIGC動態(tài)歡迎閱讀
原標題:Yandex 開源?LLM 訓(xùn)練工具,可節(jié)省高達?20% 的?GPU 資源
關(guān)鍵字:華為,小米,字節(jié)跳動,模型,通信
文章來源:AI前線
內(nèi)容字數(shù):0字
內(nèi)容摘要:
2024 年 6 月 11 日,莫斯科跨國科技公司 Yandex 最近推出了一種用于訓(xùn)練大型語言模型 (LLM) 的開源方法 YaFSDP, 用于增強 GPU 通信并減少 LLM 訓(xùn)練中的內(nèi)存使用量。
LLM 訓(xùn)練依賴于組織成集群的大量 GPU,互連的圖形處理器陣列可以執(zhí)行訓(xùn)練具有數(shù)十億個參數(shù)的模型所需的大量計算。在集群中的處理器之間分配計算需要不斷通信,這通常會成為“瓶頸”,減慢訓(xùn)練過程并導(dǎo)致計算能力的低效使用。
為了克服這一瓶頸,Yandex 開發(fā)人員創(chuàng)建了 YaFSDP,來改善 GPU 通信并優(yōu)化學(xué)習(xí)速度和性能的方法。
YaFSDP 的工作原理是消除 GPU 通信效率低下的問題,從而優(yōu)化網(wǎng)絡(luò)使用率并減少內(nèi)存負載。它確保訓(xùn)練時只需要必要的處理器內(nèi)存,并使 GPU 交互不間斷,從而促進進一步的優(yōu)化,例如最大限度地減少處理器通信時間。這可以顯著提高性能和內(nèi)存效率。
YaFSDP 是 FSDP 的增強版,在 LLM 訓(xùn)練中最耗通信的階段(如預(yù)訓(xùn)練、對齊和微調(diào))中,其表現(xiàn)優(yōu)于 FSDP (Fully Sharded Data Parallel,全切片數(shù)據(jù)并行)方法。
官方表示,與 FSDP
原文鏈接:Yandex 開源?LLM 訓(xùn)練工具,可節(jié)省高達?20% 的?GPU 資源
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。