250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊

AIGC動態(tài)歡迎閱讀
原標(biāo)題:250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
關(guān)鍵字:向量,維度,注意力,權(quán)重,矩陣
文章來源:新智元
內(nèi)容字?jǐn)?shù):25704字
內(nèi)容摘要:
新智元報(bào)道編輯:喬楊 好困
【新智元導(dǎo)讀】Llama 3發(fā)布一個(gè)月后,一位開發(fā)者在GitHub上創(chuàng)建了名為「從頭開始實(shí)現(xiàn)Llama 3」的項(xiàng)目,引起了開源社區(qū)的廣泛關(guān)注。代碼非常詳細(xì)地展現(xiàn)了Llama所使用的Transformer架構(gòu),甚至讓Andrej Karpathy親自下場「背書」。Llama系列作為為數(shù)不多的優(yōu)質(zhì)開源LLM,一直受到開發(fā)者們的追捧。在Hugging Face社區(qū)的文本生成模型中,幾乎是「霸榜」的存在。
就在520這天,一位名叫Nishant Aklecha的開發(fā)者在上宣布了自己的一個(gè)開源項(xiàng)目,名為「從頭開始實(shí)現(xiàn)Llama 3」。
這個(gè)項(xiàng)目詳細(xì)到什么程度呢——
矩陣乘法、注意力頭、位置編碼等模塊全部都拆開解釋。
而且項(xiàng)目全部用Jupyter Notebook寫成,小白都可以直接上手運(yùn)行。
堪比哈佛NLP小組曾經(jīng)出品的「The Annotated Transformer」。
https://nlp.seas.harvard.edu/annotated-transformer/
才一天多的時(shí)間,小哥發(fā)表的這篇已經(jīng)有32萬次閱讀,甚至被Andrej Karpa
原文鏈接:250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號