Karpathy最新四小時(shí)視頻教程:從零復(fù)現(xiàn)GPT-2,通宵運(yùn)行即搞定

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Karpathy最新四小時(shí)視頻教程:從零復(fù)現(xiàn)GPT-2,通宵運(yùn)行即搞定
關(guān)鍵字:視頻,部分內(nèi)容,梯度,模型,部分
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉這是Karpathy「Neural Networks:zero to hero」系列視頻的最新內(nèi)容。AI 大牛 Andrej Karpathy 又「上新」了,這次一口氣放出了長(zhǎng)達(dá)四個(gè)小時(shí)的視頻。
視頻主題為「讓我們來復(fù)現(xiàn) GPT-2(1.24 億參數(shù))」。
Karpathy 表示,此次視頻之所以這么長(zhǎng),是因?yàn)樗苋妫簭目瘴募_始,最后得到一個(gè) GPT-2(124M)模型。
具體實(shí)現(xiàn)步驟包括如下:
首先構(gòu)建 GPT-2 網(wǎng)絡(luò)。
然后對(duì)其進(jìn)行優(yōu)化,以便快速訓(xùn)練。
然后通過參考 GPT-2 和 GPT-3 論文來設(shè)置訓(xùn)練運(yùn)行優(yōu)化和超參數(shù)。
然后進(jìn)行模型評(píng)估。
然后祈禱好運(yùn),并去睡覺。
第二天早上,查看結(jié)果并享受有趣的模型生成。通宵運(yùn)行的結(jié)果甚至非常接近 GPT-3(124M)模型。
該視頻以「Zero To Hero」系列視頻為基礎(chǔ),有些地方參考了以往視頻。你可以根據(jù)該視頻構(gòu)建 nanoGPT 存儲(chǔ)庫,到最后大約有 90% 相似。
當(dāng)然,Karpathy 上傳了相關(guān)的 GitHub 存儲(chǔ)庫「build-nanogpt」,包含了全部提交歷史,這樣你可以一步步看到視頻中
原文鏈接:Karpathy最新四小時(shí)視頻教程:從零復(fù)現(xiàn)GPT-2,通宵運(yùn)行即搞定
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)