五分鐘速成:用神級(jí)項(xiàng)目訓(xùn)練GPT-2,Andrej Karpathy也為之點(diǎn)贊!
八塊 H100,五分鐘完事。
原標(biāo)題:神級(jí)項(xiàng)目訓(xùn)練GPT-2僅需5分鐘,Andrej Karpathy都點(diǎn)贊
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5471字
新技術(shù)提升大模型訓(xùn)練效率
隨著人工智能領(lǐng)域的發(fā)展,模型訓(xùn)練的效率得到了顯著提升。近期,Keller Jordan開發(fā)的「Modded-NanoGPT」項(xiàng)目使得在8塊H100 GPU上訓(xùn)練GPT-2模型的時(shí)間從45分鐘縮短至僅5分鐘,令人矚目。
項(xiàng)目背景
此前,Andrej Karpathy通過純C語言實(shí)現(xiàn)的llm.c項(xiàng)目引起了廣泛關(guān)注。該項(xiàng)目的目標(biāo)是簡化大模型的訓(xùn)練,但在實(shí)現(xiàn)GPT-2的過程中仍需耗費(fèi)大量時(shí)間。在短短幾個(gè)月內(nèi),Keller Jordan的Modded-NanoGPT項(xiàng)目展示了技術(shù)的迅猛進(jìn)步。
技術(shù)創(chuàng)新
Modded-NanoGPT采用了一系列先進(jìn)的技術(shù),包括FlexAttention、旋轉(zhuǎn)嵌入、QK-Norm等,顯著提高了訓(xùn)練速度。利用大序列長度,Jordan在FlexAttention的幫助下,將訓(xùn)練時(shí)間進(jìn)一步壓縮。雖然在HellaSwag上的準(zhǔn)確率略有下降,但結(jié)果依然令人滿意。
訓(xùn)練流程
用戶可以通過簡單的命令安裝所需的依賴并啟動(dòng)訓(xùn)練。項(xiàng)目支持在多個(gè)GPU上進(jìn)行訓(xùn)練,只需適當(dāng)調(diào)整參數(shù),便能在短時(shí)間內(nèi)完成模型訓(xùn)練,輸出具有124M活躍參數(shù)的Transformer模型。
Muon優(yōu)化器的應(yīng)用
此外,項(xiàng)目還引入了Keller Jordan自研的Muon優(yōu)化器,這種優(yōu)化器以其高效的內(nèi)存使用和優(yōu)秀的樣本效率,成為當(dāng)前已知最快的優(yōu)化器之一。通過一系列實(shí)驗(yàn),Muon優(yōu)化器展現(xiàn)出在大規(guī)模訓(xùn)練中的潛力。
總結(jié)與展望
Keller Jordan的Modded-NanoGPT項(xiàng)目不僅大幅提升了訓(xùn)練效率,還展現(xiàn)了未來大模型訓(xùn)練的可能方向。盡管快速訓(xùn)練可能面臨擴(kuò)展性的問題,但其在1.5B參數(shù)模型上的表現(xiàn)顯示出良好的性價(jià)比,為研究者提供了新的選擇和思路。
如需詳細(xì)了解該項(xiàng)目及其技術(shù)細(xì)節(jié),歡迎訪問該項(xiàng)目的GitHub頁面。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)