AIGC動態歡迎閱讀
原標題:3天把Llama訓成Mamba,性能不降,推理更快!
關鍵字:模型,算法,研究人員,草稿,參數
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:alan
【新智元導讀】近日,Mamba方面又搞出了有意思的研究:來自康奈爾、普林斯頓等機構的研究人員成功將Llama提煉成了Mamba模型,并且設計了新的推測解碼算法,加速了模型的推理。先來看一張其樂融融的圖片(一眼AI):
右邊的小羊駝代表Llama,而左邊的蛇(Mamba)也是我們的老熟人了。
至于到底能不能其樂融融,咱就不管了,之所以有此場景,是因為Mamba方面又搞出了有意思的研究:
——如何把Llama變成Mamba?
論文地址:https://arxiv.org/pdf/2408.15237
代碼地址:https://github.com/jxiw/MambaInLlama
近日,來自康奈爾、普林斯頓等機構的研究人員推出了上面這篇工作,將Llama這樣的大型Transformer提煉成了Mamba模型,
并且成功在Mamba架構上應用了帶有硬件感知的推測解碼算法,提高了整個模型的推理速度。
為什么要把Llama變成Mamba?
因為從頭開始訓練一個大模型太貴了。
Mamba也火了這么長時間了,相關的研究每天都有,但自己訓練大尺寸Mamba模型的卻很少。
原文鏈接:3天把Llama訓成Mamba,性能不降,推理更快!
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...