<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        階躍公開了自家新型注意力機(jī)制:KV緩存消耗直降93.7%,性能不減反增

        一種 KV Cache 友好的大模型 Attention 機(jī)制。

        階躍公開了自家新型注意力機(jī)制:KV緩存消耗直降93.7%,性能不減反增

        原標(biāo)題:階躍公開了自家新型注意力機(jī)制:KV緩存消耗直降93.7%,性能不減反增
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):4981字

        高效大語言模型推理:多矩陣分解注意力機(jī)制MFA的突破

        機(jī)器之心AIxiv專欄報(bào)道了階躍星辰、清華大學(xué)等機(jī)構(gòu)的研究成果:一篇關(guān)于新型注意力機(jī)制——多矩陣分解注意力(MFA)及其變體MFA-Key-Reuse的論文。該研究旨在解決大語言模型推理階段的內(nèi)存瓶頸問題,即傳統(tǒng)注意力機(jī)制的鍵值緩存(KV Cache)隨批處理大小和序列長(zhǎng)度線性增長(zhǎng)的問題。

        1. 問題與挑戰(zhàn)

        現(xiàn)有解決KV Cache內(nèi)存占用問題的注意力機(jī)制變體,例如MQA和MLA,存在性能與復(fù)雜度之間的權(quán)衡難題。MQA犧牲了模型表達(dá)能力以換取極低的內(nèi)存使用;而MLA雖然結(jié)構(gòu)靈活,但其性能上限受限于最小維度,增加中間維度并不能有效提升性能。

        2. MFA機(jī)制的創(chuàng)新

        MFA的提出旨在最大限度地節(jié)省資源并接近理論性能上限。研究團(tuán)隊(duì)通過三個(gè)關(guān)鍵創(chuàng)新實(shí)現(xiàn)了這一目標(biāo):

        1. 顯著增加注意力頭數(shù)量和維度:突破傳統(tǒng)設(shè)計(jì)局限,極大提升模型容量。

        2. 創(chuàng)新的低秩分解策略:在擴(kuò)展模型注意力頭數(shù)量和維度時(shí)保持高參數(shù)效率。

        3. 單鍵值頭設(shè)計(jì):即使增加模型復(fù)雜度,也能保持最低水平的內(nèi)存使用。

        3. 理論分析與比較

        研究團(tuán)隊(duì)提出了廣義多頭注意力(GMHA)的概念框架,并引入“總有效秩(TER)”和“共享隱空間維度(SLSD)”兩個(gè)指標(biāo)來衡量GMHA系列模型的容量。通過此框架,MFA與MQA、MLA、MHA的比較分析表明,MFA在參數(shù)效率和性能之間取得了最佳平衡。MFA在更高的TER和SLSD下,實(shí)現(xiàn)了更低的KV Cache占用。

        4. 實(shí)驗(yàn)結(jié)果與結(jié)論

        實(shí)驗(yàn)結(jié)果顯示,MFA和MFA-KR在不同規(guī)模模型(1B到7B參數(shù))和訓(xùn)練數(shù)據(jù)量(10B到1T)下均表現(xiàn)出色。MFA與傳統(tǒng)MHA具有相當(dāng)?shù)男阅軘U(kuò)展能力,并在內(nèi)存節(jié)省方面展現(xiàn)出顯著優(yōu)勢(shì),最大規(guī)模模型上實(shí)現(xiàn)了高達(dá)87.5%的內(nèi)存節(jié)省。消融實(shí)驗(yàn)也驗(yàn)證了MFA和MFA-KR設(shè)計(jì)的有效性。

        5. 展望

        MFA以簡(jiǎn)潔的設(shè)計(jì)解決了LLM高效推理的顯存瓶頸問題,并能無縫集成到現(xiàn)有Transformer生態(tài)中。這項(xiàng)研究為大語言模型的廣泛應(yīng)用提供了重要的技術(shù)支撐。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 久久久影院亚洲精品| 在线看亚洲十八禁网站| 亚洲首页在线观看| 亚洲精品无码久久久久A片苍井空| 大片免费观看92在线视频线视频| 99久久国产免费中文无字幕| 精品国产免费观看| 亚洲伊人tv综合网色| 美女又黄又免费的视频| 69视频在线观看高清免费| 亚洲成人国产精品| 456亚洲人成影院在线观| 在线人成免费视频69国产| 国产高清免费在线| 亚洲国产精品久久人人爱| 亚洲中文字幕久久精品蜜桃| 99久久国产精品免费一区二区| 亚洲欧洲∨国产一区二区三区| 国产精品亚洲一区二区三区| 九月婷婷亚洲综合在线| 亚洲性猛交xx乱| 成年人网站在线免费观看| 久久亚洲精品人成综合网| 麻豆高清免费国产一区| 国产成A人亚洲精V品无码性色| 国产精品亚洲va在线观看| 亚洲视频一区二区| 香港经典a毛片免费观看看| 国产亚洲成人久久| 人体大胆做受免费视频| 亚洲人成网站色7799| 免费真实播放国产乱子伦| 亚洲毛片基地4455ww| 国产福利免费在线观看| h视频免费高清在线观看| 亚洲av日韩av欧v在线天堂| 两个人看的www高清免费视频| 国产精品亚洲不卡一区二区三区 | 人人狠狠综合久久亚洲婷婷| 18女人腿打开无遮掩免费| 国产成人va亚洲电影|