AIGC動態歡迎閱讀
原標題:從零復現Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
關鍵字:向量,矩陣,注意力,權重,模型
文章來源:量子位
內容字數:8026字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??(點贊+轉發+評論),一個教你從頭開始實現Llama3的代碼庫爆火。
X上轉贊收藏量超6.8k,GitHub攬星2k+。
火就火在,它教你從頭用Meta開源的權重進行推理,詳細解釋和展開了注意力機制中多個頭的矩陣乘法、位置編碼以及所有中間層。
換句話說,他解釋了每行代碼都在干啥。
Karpathy看后直呼打造者Nishant Aklecha(后文暫稱“納哥”)是個有品的人:
完全展開后,比起模塊相互嵌套和調用時,更容易理解每一步具體在做什么。
網友們對其也是贊不絕口,紛紛致敬:
話不多說,一起來看納哥是如何手把手教的。
(量子位在不改變原意的基礎上,進行了編譯整理)
從頭實現llama3在運行納哥提供的文件前,大伙兒需要預先下載Meta官方提供的Llama3模型權重。
納哥表示自己沒搞器,推薦用Karpathy的現成簡潔版BPE代碼。PS:
“字節級(byte-level)”BPE算法,在UTF-8編碼的字符串上運行,廣泛應用于大模型分詞。Karpathy提供的這個代碼庫包含兩個分詞器,都
原文鏈接:從零復現Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...