只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟
關鍵字：模型,張量,梯度,函數,性能
文章來源：量子位
內容字數：0字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數，就能實現與全激活稠密模型相當的性能。
微軟亞洲研究院的一項新研究，實現了模型的完全稀疏激活，讓推理成本大幅下降。
而且適用范圍廣泛，無論是從頭訓練、繼續訓練還是微調，都能提供有效支持。
該方法名為Q-Sparse，在神經元級別上實現了模型稀疏化，相比于其他方式粒度更細，在相同推理開銷下，無論性能還是稀疏率都更好。
名稱之中，Q指的是量化（Quantization），意味著它除了普通模型之外，也兼容量化技術，適用于各種量化方式的模型。
作者進一步表示，如果把Q-Sparse與模型量化技術結合，還可以實現更大程度的降本增效。
另外在研究Q-Sparse的同時，團隊也對參數規模、稀疏率和模型性能三者之間的關系進行了深入探尋，并發現了適用于模型推理優化的“Scaling Law”。
有網友認為，這項技術確實不錯，而且比ReLU要更好。
還有人開啟了許愿模式，表示如果（AMD的）ROCm能比英偉達更快支持這項技術就好了。
用Top-K函數實現稀疏化Q-Sparse所做的最核心的操作，是對輸入的張量應用Top-K稀疏化函數。

原文鏈接：只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟