被OpenAI、Mistral AI帶火的MoE是怎么回事?一文貫通專家混合架構(gòu)部署
AIGC動態(tài)歡迎閱讀
原標題:被OpenAI、Mistral AI帶火的MoE是怎么回事?一文貫通專家混合架構(gòu)部署
關(guān)鍵字:專家,模型,門控,網(wǎng)絡,參數(shù)
文章來源:機器之心
內(nèi)容字數(shù):17299字
內(nèi)容摘要:
選自 HuggingFace 博客
編譯:趙陽本文將介紹 MoE 的構(gòu)建模塊、訓練方法以及在使用它們進行推理時需要考慮的權(quán)衡因素。專家混合 (MoE) 是 LLM 中常用的一種技術(shù),旨在提高其效率和準確性。這種方法的工作原理是將復雜的任務劃分為更小、更易于管理的子任務,每個子任務都由專門的迷你模型或「專家」處理。
早些時候,有人爆料 GPT-4 是采用了由 8 個專家模型組成的集成系統(tǒng)。近日,Mistral AI 發(fā)布的 Mixtral 8x7B 同樣采用這種架構(gòu),實現(xiàn)了非常不錯的性能(傳送門:一條磁力鏈接席卷 AI 圈,87GB 種子直接開源 8x7B MoE 模型)。
OpenAI 和 Mistral AI 的兩波推力,讓 MoE 一時間成為開放人工智能社區(qū)最熱門的話題 。
本文將介紹 MoE 的構(gòu)建模塊、訓練方法以及在使用它們進行推理時需要考慮的權(quán)衡因素。混合專家架構(gòu)簡稱 MoE,它的特點如下:
與稠密模型相比,預訓練速度更快;
與參數(shù)數(shù)量相同的模型相比,推理速度更快;
因為要把所有專家模型都加載在內(nèi)存中,所以需要大量顯存;
在微調(diào)方面面臨許多挑戰(zhàn),但最近在 MoE 指令微調(diào)方面
原文鏈接:被OpenAI、Mistral AI帶火的MoE是怎么回事?一文貫通專家混合架構(gòu)部署
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺