Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練
關(guān)鍵字:原版,小時(shí),美元,工作,量子
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大神Karpathy已經(jīng)不滿足于用C語言造Llama了!
他給自己的最新挑戰(zhàn):復(fù)現(xiàn)OpenAI經(jīng)典成果,從基礎(chǔ)版GPT-2開始。
挑戰(zhàn)成功本身并不意外,但是只花費(fèi)20美元、90分鐘完成訓(xùn)練,Loss和評測還超越原版,就!有!點(diǎn)!過!分!了!。
不僅如此,他把復(fù)現(xiàn)過程寫成了完整教程,果不其然再次火爆。
由于Karpathy自己租用的是A100云服務(wù),訓(xùn)練124M版本花費(fèi)20了美元。
不過有人按照教程用H100跑了一把,不僅訓(xùn)練時(shí)間更短,還更省錢了:43分鐘完成,只花14美元。
另外Karpathy還自掏腰包200美元,為大家復(fù)現(xiàn)了350M版本的GPT-2。
但1.5B大杯版,照計(jì)算要花1周時(shí)間和2500美元,有點(diǎn)玩不起了,主要他手里也沒有H100。
還好各路卡壕非常仗義,該出手時(shí)就出手:
有需要隨時(shí)給你用!
只收你2美元一小時(shí)!
90分鐘復(fù)現(xiàn)GPT-2這次Karpathy復(fù)現(xiàn)GPT-2,還是基于他的llama.c代碼庫,端到端完成訓(xùn)練。
代碼庫這些日子被他不斷完善,現(xiàn)在啟動訓(xùn)練非常簡單:
具體來說,網(wǎng)絡(luò)結(jié)構(gòu)是GPT-2,但許多超參數(shù)設(shè)置遵
原文鏈接:Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破