一塊錢(qián)100萬(wàn)token，超強(qiáng)MoE模型開(kāi)源，性能直逼GPT-4-Turbo

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：一塊錢(qián)100萬(wàn)token，超強(qiáng)MoE模型開(kāi)源，性能直逼GPT-4-Turbo
關(guān)鍵字：模型,中文,基準(zhǔn),語(yǔ)料庫(kù),方面
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：4811字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：陳萍、小舟開(kāi)源大模型領(lǐng)域，又迎來(lái)一位強(qiáng)有力的競(jìng)爭(zhēng)者。
近日，探索通用人工智能（AGI）本質(zhì)的 DeepSeek AI 公司開(kāi)源了一款強(qiáng)大的混合專家 (MoE) 語(yǔ)言模型 DeepSeek-V2，主打訓(xùn)練成本更低、推理更加高效。項(xiàng)目地址：https://github.com/deepseek-ai/DeepSeek-V2
論文標(biāo)題：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2 參數(shù)量達(dá) 236B，其中每個(gè) token 激活 21B 參數(shù)，支持 128K token 的上下文長(zhǎng)度。與 DeepSeek 67B （該模型去年上線）相比，DeepSeek-V2 實(shí)現(xiàn)了更強(qiáng)的性能，同時(shí)節(jié)省了 42.5% 的訓(xùn)練成本，減少了 93.3% 的 KV 緩存，并將最大生成吞吐量提升 5.76 倍。DeepSeek-V2 的模型表現(xiàn)非常亮眼：在 AlignBench 基準(zhǔn)上超過(guò) GPT-4，接近 GPT-4- turbo；在 MT-Bench

原文鏈接：一塊錢(qián)100萬(wàn)token，超強(qiáng)MoE模型開(kāi)源，性能直逼GPT-4-Turbo