AIGC動態歡迎閱讀
原標題:只激活3.8B參數,性能比肩同款7B模型!訓練微調都能用,來自微軟
關鍵字:模型,張量,梯度,函數,性能
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數,就能實現與全激活稠密模型相當的性能。
微軟亞洲研究院的一項新研究,實現了模型的完全稀疏激活,讓推理成本大幅下降。
而且適用范圍廣泛,無論是從頭訓練、繼續訓練還是微調,都能提供有效支持。
該方法名為Q-Sparse,在神經元級別上實現了模型稀疏化,相比于其他方式粒度更細,在相同推理開銷下,無論性能還是稀疏率都更好。
名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術,適用于各種量化方式的模型。
作者進一步表示,如果把Q-Sparse與模型量化技術結合,還可以實現更大程度的降本增效。
另外在研究Q-Sparse的同時,團隊也對參數規模、稀疏率和模型性能三者之間的關系進行了深入探尋,并發現了適用于模型推理優化的“Scaling Law”。
有網友認為,這項技術確實不錯,而且比ReLU要更好。
還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達更快支持這項技術就好了。
用Top-K函數實現稀疏化Q-Sparse所做的最核心的操作,是對輸入的張量應用Top-K稀疏化函數。
原文鏈接:只激活3.8B參數,性能比肩同款7B模型!訓練微調都能用,來自微軟
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...