被低估的面壁：打造出不輸 OpenAI 的 Scaling Law 曲線

AIGC動態2年前 (2024)發布 AI科技評論

AIGC動態歡迎閱讀

原標題：被低估的面壁：打造出不輸 OpenAI 的 Scaling Law 曲線
關鍵字：模型,報告,知乎,團隊,參數
文章來源：AI科技評論
內容字數：14869字

內容摘要：

領先 Mistral，對標 Mistral，超越 Mistral。作者丨王悅
編輯丨陳彩嫻
大約 1 個月前，馬斯克所創辦的 xAI 團隊宣布開源 Grok-1——一個參數量為 3140 億的 MoE 大模型。從參數量來看，Grok-1 超越了 70B 的 LLaMA 2，是當前開源模型中最大的一個，被調侃為「龐然大物」。
然而，有研究人員測試卻發現，參數規模量如此巨大的 Grok-1 ，效果竟然只與 Mistral AI 的 8x7B MoE 模型相當。也因此，業內人士評價，「Grok-1 在這么大的參數量規模上只實現了這么小的效果，實際是失敗的。」
在大模型中，參數量大、不等于模型性能好。早在 2021 年 6 月，面壁智能初始團隊就發布了千億 MoE 大模型 CPM-2 ，是最早關注到這一問題的 AI 團隊之一。
面壁智能 CTO 曾國洋告訴 AI 科技評論，他們從 2020 年 GPT-3 出來后開始訓練大模型，也是走過一些彎路后才逐漸認識到，“提升模型效果是大模型訓練的根本目標，但這并不意味著一定要通過擴大參數量規模和燃燒高昂的算力成本來實現。”
相反，“讓每一個參數發揮最大

原文鏈接：被低估的面壁：打造出不輸 OpenAI 的 Scaling Law 曲線