AIGC動態歡迎閱讀
原標題:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升
關鍵字:注意力,跨度,模型,長度,上下文
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
機器之心編輯部隨著大語言模型在長文本場景下的需求不斷涌現,其核心的注意力機制(Attention Mechanism)也獲得了非常多的關注。
注意力機制會計算一定跨度內輸入文本(令牌,Token)之間的交互,從而實現對上下文的理解。隨著應用的發展,高效處理更長輸入的需求也隨之增長 [1][2],這帶來了計算代價的挑戰:注意力高昂的計算成本和不斷增長的鍵值緩存(KV-Cache)代價。稀疏注意力機制可以有效緩解內存和吞吐量的挑戰。
然而,現有稀疏注意力通常采用統一的稀疏注意力模式,即對不同的注意力頭和輸入長度應用相同的稀疏模式。這種統一的方法難以捕捉到大語言模型中多樣的注意力模式,導致不同注意力頭的不同的精度 – 代價權衡被忽略。
最近,來自清華大學、無問芯穹和上海交通大學的研究團隊發表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》,提出通過混合不同稀疏度的注意力頭,使用 25% 的注意力稠密度,就可以記憶幾乎 100% 的上下文。
本工作現已開源,歡迎交流
原文鏈接:無問芯穹提出混合稀疏注意力方案MoA,加速長文本生成,實現最高8倍吞吐率提升
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...