AIGC動態歡迎閱讀
原標題:微軟讓MoE長出多個頭,大幅提升專家激活率
關鍵字:專家,多頭,語義,模型,語言
文章來源:機器之心
內容字數:7757字
內容摘要:
機器之心報道
編輯:Panda WMH-MoE 能優化幾乎所有專家,實現起來非常簡單。混合專家(MoE)是個好方法,支持著現在一些非常優秀的大模型,比如谷歌家的 Gemini 1.5 以及備受關注的 Mixtral 8x7B。
稀疏混合專家(SMoE)可在不顯著增加訓練和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一個 SMoE 模型,其包含 8 個專家(共 7B 參數),而其表現卻可以超過或比肩 LLaMA-2 70B 和 GPT-3.5。
但是,它也有兩個問題。一是專家激活率低 —— 也就是搞不好會出現下圖這種情況:具體來說,就是在優化時只有一小部分專家會被激活,如圖 1a 所示(8.33% 的激活率),這會導致在學習應對復雜任務的大量專家時,會出現性能次優和效果不佳的問題。二是無法細粒度地分析單個 token 的多重語義概念,比如多義詞和具有多重細節的圖塊。
近日,微軟研究院和清華大學提出了多頭混合專家(MH-MoE)。顧名思義,MH-MoE 采用了多頭機制,可將每個輸入 token 分成多個子 token。然后將這些子 token 分配給一組多樣化的專家
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...