DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
關(guān)鍵字:華為,模型,狀態(tài),報(bào)告,信息
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8580字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部近期,來自華為諾亞方舟實(shí)驗(yàn)室的研究者提出了 DenseSSM,用于增強(qiáng) SSM 中各層間隱藏信息的流動(dòng)。通過將淺層隱藏狀態(tài)有選擇地整合到深層中,DenseSSM 保留了對最終輸出至關(guān)重要的精細(xì)信息。DenseSSM 在保持訓(xùn)練并行性和推理效率的同時(shí),通過密集連接實(shí)現(xiàn)了性能提升。該方法可廣泛應(yīng)用于各種 SSM 類型,如 Mamba 和 RetNet。隨著 ChatGPT 的突破性進(jìn)展,大型語言模型(LLMs)迎來了一個(gè)嶄新的里程碑。這些模型在語言理解、對話交互和邏輯推理方面展現(xiàn)了卓越的性能。過去一年,人們目睹了 LLaMA、ChatGLM 等模型的誕生,它們基于 Transformer 架構(gòu),采用多頭自注意力(MHSA)機(jī)制來捕捉詞匯間的復(fù)雜關(guān)系,盡管 MHSA 模塊在模型中扮演著核心角色,但其在推理過程中對計(jì)算和內(nèi)存資源的需求卻極為龐大。具體來說,對于長度為 N 的輸入句子,自注意力的計(jì)算復(fù)雜度高達(dá) O (N^2),而內(nèi)存占用則達(dá)到了 O (N^2D),其中 D 是模型的維度。
為了應(yīng)對這一挑戰(zhàn),最新的研究致力于簡化 Transformer 架構(gòu),以降低其在
原文鏈接:DenseMamba:大模型的DenseNet時(shí)刻,Mamba和RetNet精度顯著提升
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號