AIGC動態歡迎閱讀
原標題:將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
關鍵字:模型,報告,專家,性能,參數
文章來源:機器之心
內容字數:5828字
內容摘要:
機器之心專欄
機器之心編輯部對于大型視覺語言模型(LVLM)而言,擴展模型可以有效提高模型性能。然而,擴大參數規模會顯著增加訓練和推理成本,因為計算中每個 token 都會激活所有模型參數。
基于此,來自北京大學、中山大學等機構的研究者聯合提出了一種新穎的 LVLM 訓練策略 ——MoE-Tuning。MoE-Tuning可以構建參數數量驚人但計算成本恒定的稀疏模型,并有效解決通常與多模態學習和模型稀疏性相關的性能下降問題。該研究還提出了一種基于 MoE 的新型稀疏 LVLM 架構 ——MoE-LLaVA 框架。該框架獨特地在部署過程中通過路由算法僅激活 top-k 專家(expert),其余專家保持非活動(inactive)狀態。論文地址:https://arxiv.org/abs/2401.15947
項目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
論文題目:MoE-LLaVA: Mixture of Experts
原文鏈接:將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...