謝謝微軟，又又又Open了！一口氣發(fā)布3款Phi-3.5新模型，領(lǐng)先Llama3.1和谷歌同級模型

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標(biāo)題：謝謝微軟，又又又Open了！一口氣發(fā)布3款Phi-3.5新模型，領(lǐng)先Llama3.1和谷歌同級模型
關(guān)鍵字：模型,微軟,參數(shù),基準(zhǔn),上下文
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 付奶茶家人們！微軟又用愛發(fā)電了！一覺醒來，微軟發(fā)布了最新的小模型三兄弟：
Phi-3.5-MoE-instruct
Phi-3.5-mini-instruct
Phi-3.5-vision-instruct
三兄弟的表現(xiàn)可以說是相當(dāng)?shù)牟诲e，其中，Phi-3.5-MoE 在基準(zhǔn)測試中擊敗了 Llama 3.1 8B、Mistral-Nemo-12B，Gemini 1.5 Flash。在推理能力方面它也優(yōu)于其他一些較大的模型，僅落后于 GPT-4o-mini，直接分分鐘登頂同級模型！
真不錯呀！讓奶茶帶大家看一下！
不同用途不同選擇！三個Phi 3.5模型有不同的專長！
Phi-3.5 MoE – 微軟專家大集合大哥Phi-3.5 MoE 是一個混合專家模型，將多個不同的模型類型組合成一個，其中每個模型類型專門從事不同的任務(wù)。該模型有420億個活動參數(shù)的架構(gòu)，支持128k token上下文長度。
劃重點(diǎn)：
6.6B 活動參數(shù)（總參數(shù)42B）
128K 上下文、多語言和相同分詞器
在 4.9T tokens 上進(jìn)行訓(xùn)練
使用 512 張 H100 進(jìn)行訓(xùn)練（23

原文鏈接：謝謝微軟，又又又Open了！一口氣發(fā)布3款Phi-3.5新模型，領(lǐng)先Llama3.1和谷歌同級模型