Mixtral-8x7B MoE大模型微調(diào)實踐,超越Llama2-65B
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Mixtral-8x7B MoE大模型微調(diào)實踐,超越Llama2-65B
關(guān)鍵字:模型,李白,專家,參數(shù),數(shù)據(jù)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):6642字
內(nèi)容摘要:
直播預(yù)告 | 5月14日晚7點,「智猩猩AI新青年講座」第235講正式開講,慕尼黑工業(yè)大學(xué)視覺實驗室陳振宇博士將直播講解《三維室內(nèi)場景紋理圖生成》歡迎掃名~01前言Mixtral-8x7B在各大榜單中取得了及其優(yōu)異的表現(xiàn),本文主要分享我們微調(diào)Mixtral-8x7B MoE模型的初步實踐。我們使用Firefly項目對其進(jìn)行微調(diào),在一張V100上,僅使用4.8萬條數(shù)據(jù)對Mixtral-8x7B-v0.1基座模型微調(diào)了3000步,取得了非常驚艷的效果。
我們的模型在?Open LLM Leaderboard上的分?jǐn)?shù)為70.34分,比Mixtral-8x7B-v0.1提升1.92分,比官方的chat模型低2.28分。若對訓(xùn)練數(shù)據(jù)和流程進(jìn)行更精細(xì)的調(diào)整,應(yīng)該還有較大的提升空間。注意,Mixtral-8x7B-v0.1為預(yù)訓(xùn)練模型,具有非常弱的指令遵從能力,我們在此基礎(chǔ)上進(jìn)行微調(diào),旨在驗證方法的有效性。若讀者希望在自己的下游任務(wù)中進(jìn)行微調(diào),可基于Mixtral-8x7B-Instruct-v0.1進(jìn)行微調(diào)。
我們也對比了其他主流的開源模型在?Open LLM Leaderboard的表現(xiàn)
原文鏈接:Mixtral-8x7B MoE大模型微調(diào)實踐,超越Llama2-65B
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。