從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+
關(guān)鍵字：向量,矩陣,注意力,權(quán)重,模型
文章來源：量子位
內(nèi)容字?jǐn)?shù)：8026字

內(nèi)容摘要：

西風(fēng) 發(fā)自凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??（點(diǎn)贊+轉(zhuǎn)發(fā)+評論），一個教你從頭開始實(shí)現(xiàn)Llama3的代碼庫爆火。
X上轉(zhuǎn)贊收藏量超6.8k，GitHub攬星2k+。
火就火在，它教你從頭用Meta開源的權(quán)重進(jìn)行推理，詳細(xì)解釋和展開了注意力機(jī)制中多個頭的矩陣乘法、位置編碼以及所有中間層。
換句話說，他解釋了每行代碼都在干啥。
Karpathy看后直呼打造者Nishant Aklecha（后文暫稱“納哥”）是個有品的人：
完全展開后，比起模塊相互嵌套和調(diào)用時，更容易理解每一步具體在做什么。
網(wǎng)友們對其也是贊不絕口，紛紛致敬：
話不多說，一起來看納哥是如何手把手教的。
（量子位在不改變原意的基礎(chǔ)上，進(jìn)行了編譯整理）
從頭實(shí)現(xiàn)llama3在運(yùn)行納哥提供的文件前，大伙兒需要預(yù)先下載Meta官方提供的Llama3模型權(quán)重。
納哥表示自己沒搞器，推薦用Karpathy的現(xiàn)成簡潔版BPE代碼。PS：
“字節(jié)級（byte-level）”BPE算法，在UTF-8編碼的字符串上運(yùn)行，廣泛應(yīng)用于大模型分詞。Karpathy提供的這個代碼庫包含兩個分詞器，都

原文鏈接：從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+