Karpathy最新四小時(shí)視頻教程：從零復(fù)現(xiàn)GPT-2，通宵運(yùn)行即搞定

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Karpathy最新四小時(shí)視頻教程：從零復(fù)現(xiàn)GPT-2，通宵運(yùn)行即搞定
關(guān)鍵字：視頻,部分內(nèi)容,梯度,模型,部分
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：杜偉這是Karpathy「Neural Networks：zero to hero」系列視頻的最新內(nèi)容。AI 大牛 Andrej Karpathy 又「上新」了，這次一口氣放出了長(zhǎng)達(dá)四個(gè)小時(shí)的視頻。
視頻主題為「讓我們來復(fù)現(xiàn) GPT-2（1.24 億參數(shù)）」。
Karpathy 表示，此次視頻之所以這么長(zhǎng)，是因?yàn)樗苋妫簭目瘴募_始，最后得到一個(gè) GPT-2（124M）模型。
具體實(shí)現(xiàn)步驟包括如下：
首先構(gòu)建 GPT-2 網(wǎng)絡(luò)。
然后對(duì)其進(jìn)行優(yōu)化，以便快速訓(xùn)練。
然后通過參考 GPT-2 和 GPT-3 論文來設(shè)置訓(xùn)練運(yùn)行優(yōu)化和超參數(shù)。
然后進(jìn)行模型評(píng)估。
然后祈禱好運(yùn)，并去睡覺。
第二天早上，查看結(jié)果并享受有趣的模型生成。通宵運(yùn)行的結(jié)果甚至非常接近 GPT-3（124M）模型。
該視頻以「Zero To Hero」系列視頻為基礎(chǔ)，有些地方參考了以往視頻。你可以根據(jù)該視頻構(gòu)建 nanoGPT 存儲(chǔ)庫，到最后大約有 90% 相似。
當(dāng)然，Karpathy 上傳了相關(guān)的 GitHub 存儲(chǔ)庫「build-nanogpt」，包含了全部提交歷史，這樣你可以一步步看到視頻中