DeepSeek 發(fā)布全新開源大模型，數學推理能力超越 LLaMA-2

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：DeepSeek 發(fā)布全新開源大模型，數學推理能力超越 LLaMA-2
關鍵字：模型,數據,縮放,性能,任務
文章來源：夕小瑤科技說
內容字數：10726字

內容摘要：

夕小瑤科技說原創(chuàng)作者 | 智商掉了一地、Python自從 LLaMA 被提出以來，開源大型語言模型（LLM）的快速發(fā)展就引起了廣泛研究關注，隨后的一些研究就主要集中于訓練固定大小和高質量的模型，但這往往忽略了對 LLM 縮放規(guī)律的深入探索。
開源 LLM 的縮放研究可以促使 LLM 提高性能和拓展應用領域，對于推進自然語言處理和人工智能領域具有重要作用。在縮放規(guī)律的指導下，為了解決目前 LLM 縮放領域中存在的不明確性，由 DeepSeek 的 AI 團隊發(fā)布了全新開源模型 LLMDeepSeek LLM。此外，作者還在這個基礎模型上進行了監(jiān)督微調（SFT）和直接偏好優(yōu)化（DPO），從而創(chuàng)建了 DeepSeek Chat 模型。
在性能方面，DeepSeek LLM 67B 在代碼、數學和推理任務中均超越了 LLaMA-2 70B，而 DeepSeek LLM 67B Chat 在開放性評估中更是超越了 GPT-3.5。這一系列的表現為開源 LLM 的未來發(fā)展奠定了一定基礎。
論文題目: DeepSeek LLM: Scaling Open-Source Language Model

原文鏈接：DeepSeek 發(fā)布全新開源大模型，數學推理能力超越 LLaMA-2