從零復(fù)現(xiàn)Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+

AIGC動態(tài)歡迎閱讀
原標(biāo)題:從零復(fù)現(xiàn)Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
關(guān)鍵字:向量,矩陣,注意力,權(quán)重,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):8026字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??(點(diǎn)贊+轉(zhuǎn)發(fā)+評論),一個教你從頭開始實(shí)現(xiàn)Llama3的代碼庫爆火。
X上轉(zhuǎn)贊收藏量超6.8k,GitHub攬星2k+。
火就火在,它教你從頭用Meta開源的權(quán)重進(jìn)行推理,詳細(xì)解釋和展開了注意力機(jī)制中多個頭的矩陣乘法、位置編碼以及所有中間層。
換句話說,他解釋了每行代碼都在干啥。
Karpathy看后直呼打造者Nishant Aklecha(后文暫稱“納哥”)是個有品的人:
完全展開后,比起模塊相互嵌套和調(diào)用時,更容易理解每一步具體在做什么。
網(wǎng)友們對其也是贊不絕口,紛紛致敬:
話不多說,一起來看納哥是如何手把手教的。
(量子位在不改變原意的基礎(chǔ)上,進(jìn)行了編譯整理)
從頭實(shí)現(xiàn)llama3在運(yùn)行納哥提供的文件前,大伙兒需要預(yù)先下載Meta官方提供的Llama3模型權(quán)重。
納哥表示自己沒搞器,推薦用Karpathy的現(xiàn)成簡潔版BPE代碼。PS:
“字節(jié)級(byte-level)”BPE算法,在UTF-8編碼的字符串上運(yùn)行,廣泛應(yīng)用于大模型分詞。Karpathy提供的這個代碼庫包含兩個分詞器,都
原文鏈接:從零復(fù)現(xiàn)Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號