純C語(yǔ)言手搓GPT-2，前OpenAI、特斯拉高管新項(xiàng)目火了

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：純C語(yǔ)言手搓GPT-2，前OpenAI、特斯拉高管新項(xiàng)目火了
關(guān)鍵字：模型,語(yǔ)言,代碼,權(quán)重,內(nèi)存
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：8282字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：澤南、小舟「Real men program in C.」眾所周知，大語(yǔ)言模型還在快速發(fā)展，應(yīng)該有很多可以優(yōu)化的地方。我用純 C 語(yǔ)言來(lái)寫(xiě)，是不是能優(yōu)化一大截？
也許很多人開(kāi)過(guò)這樣的腦洞，現(xiàn)在有大佬實(shí)現(xiàn)了。今天凌晨，前特斯拉 Autopilot 負(fù)責(zé)人、OpenAI 科學(xué)家 Andrej Karpathy 發(fā)布了一個(gè)僅用 1000 行代碼即可在 CPU/fp32 上實(shí)現(xiàn) GPT-2 訓(xùn)練的項(xiàng)目「llm.c」。
GitHub 鏈接：https://github.com/karpathy/llm.c
消息一出，立即引發(fā)了機(jī)器學(xué)習(xí)社區(qū)的熱烈討論，項(xiàng)目的 Star 量不到七個(gè)小時(shí)就沖上了 2000。有網(wǎng)友表示，大佬從零開(kāi)始用 C 語(yǔ)言寫(xiě)大模型只為好玩，我等只能膜拜：llm.c 旨在讓大模型（LM）訓(xùn)練變得簡(jiǎn)單 —— 使用純 C 語(yǔ)言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，訓(xùn)練 GPT-2（CPU、fp32）僅需要單個(gè)文件中的大約 1000 行干凈代碼（clean code），可以立即編譯運(yùn)行，并且完全可以媲美 PyT

原文鏈接：純C語(yǔ)言手搓GPT-2，前OpenAI、特斯拉高管新項(xiàng)目火了