Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
AIGC動態(tài)歡迎閱讀
原標題:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
關(guān)鍵字:架構(gòu),模型,基準,數(shù)學(xué)模型,量子
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號 QbitAI“歐洲OpenAI”和“Transformer挑戰(zhàn)者”強強聯(lián)合了!
Mistral AI剛剛推出了其第一個基于Mamba2架構(gòu)的開源模型——Codestral Mamba(7B),專搞代碼生成。
與Transformer架構(gòu)不同,Mamba架構(gòu)可進行“線性時間推理”,理論上能夠支持無限長度輸入。
Mistral AI:這也就是為啥我們用Mamba架構(gòu)推出的代碼推理模型抗打。
Mistral AI表示已經(jīng)在最多256k token上下文中測試了Codestral Mamba。
基準測試中,Codestral Mamba總體性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
有網(wǎng)友表示,這一波是Mistral AI要帶飛Mamba架構(gòu)的節(jié)奏。
Mamba架構(gòu)作者之一、CMU助理教授Albert Gu表示:
具有較弱“tokenizations”的不同模態(tài)或數(shù)據(jù)格式(例如代碼、byte級建模)會越來越多地從壓縮模型(如SSM)中受益。
除了Codestral Ma
原文鏈接:Mamba寫代碼真的超越Transformer!原始論文入選頂流新會議
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...