DeepSeek 發(fā)布全新開源大模型,數學推理能力超越 LLaMA-2
AIGC動態(tài)歡迎閱讀
原標題:DeepSeek 發(fā)布全新開源大模型,數學推理能力超越 LLaMA-2
關鍵字:模型,數據,縮放,性能,任務
文章來源:夕小瑤科技說
內容字數:10726字
內容摘要:
夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、Python自從 LLaMA 被提出以來,開源大型語言模型(LLM)的快速發(fā)展就引起了廣泛研究關注,隨后的一些研究就主要集中于訓練固定大小和高質量的模型,但這往往忽略了對 LLM 縮放規(guī)律的深入探索。
開源 LLM 的縮放研究可以促使 LLM 提高性能和拓展應用領域,對于推進自然語言處理和人工智能領域具有重要作用。在縮放規(guī)律的指導下,為了解決目前 LLM 縮放領域中存在的不明確性,由 DeepSeek 的 AI 團隊發(fā)布了全新開源模型 LLMDeepSeek LLM。此外,作者還在這個基礎模型上進行了監(jiān)督微調(SFT)和直接偏好優(yōu)化(DPO),從而創(chuàng)建了 DeepSeek Chat 模型。
在性能方面,DeepSeek LLM 67B 在代碼、數學和推理任務中均超越了 LLaMA-2 70B,而 DeepSeek LLM 67B Chat 在開放性評估中更是超越了 GPT-3.5。這一系列的表現為開源 LLM 的未來發(fā)展奠定了一定基礎。
論文題目: DeepSeek LLM: Scaling Open-Source Language Model
原文鏈接:DeepSeek 發(fā)布全新開源大模型,數學推理能力超越 LLaMA-2
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼?zhèn)涿襟wsense與技術深度。