AIGC動態歡迎閱讀
原標題:Mixtral 8x7B論文終于來了:架構細節、參數量首次曝光
關鍵字:專家,基準,模型,研究者,論文
文章來源:機器之心
內容字數:8066字
內容摘要:
機器之心報道
作者:陳萍、大盤雞Mixtral 8x7B 在大多數基準測試中都優于 Llama 2 70B 和 GPT-3.5。前段時間,那個爆火整個開源社區的 Mixtral 8x7B MoE 模型論文放出了。
此前,由于 OpenAI 團隊一直對 GPT-4 的參數量和訓練細節守口如瓶。Mistral 8x7B 的放出,無疑給廣大開發者提供了一種「非常接近 GPT-4」的開源選項。要知道,很早之前就有人爆料,OpenAI 也是采用了「混合專家模型」(Mixture of Experts,MoE)的構架來搭建 GPT-4。
隨著論文的放出,一些研究細節也被公布出來。論文地址:https://arxiv.org/pdf/2401.04088.pdf
項目地址:https://github.com/mistralai/mistral-src
論文主頁:https://mistral.ai/news/mixtral-of-experts/
Mixtral 8x7B 是一種具有開放權重的稀疏專家混合模型 (SMoE),在大多數基準測試中都優于 Llama 2 70B 和 GPT-3.5。Mi
原文鏈接:Mixtral 8x7B論文終于來了:架構細節、參數量首次曝光
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...