大模型隱藏玩家上桌:DeepSeek 向左,面壁向右
他們正在打樣「榨干」有限算力的極致解法。
大模型賽道新格局:高效性成為關鍵競爭力
大模型賽跑兩年后,競爭格局已發(fā)生轉變,形成三大趨勢:追求大參數(shù)模型、轉向應用端以及專注高效模型。本文重點關注第三類玩家,特別是國內的“面壁”和“DeepSeek”兩家公司,它們通過高效的模型訓練方法,在有限算力下取得了顯著成果,成為大模型領域的新興力量。
1. 高效訓練:面壁與DeepSeek的差異化策略
算力成本高昂,參數(shù)規(guī)模并非與性能呈線性關系,因此高效訓練成為關鍵。DeepSeek選擇從頭訓練MoE模型,在降低成本的同時提升性能,其DeepSeek-V3模型以較低的成本超越了多個開源模型。而面壁則另辟蹊徑,專注于端側場景,通過自研稀疏化方案和新型類腦高效稀疏CFM架構,在MiniCPM系列模型中取得了顯著的性能提升和能耗降低,在單設備服務的高效性上更勝一籌。兩者在稀疏化方法、目標場景和高效性側重點上存在差異。
2. 端側模型的崛起:MiniCPM-o 2.6的突破
面壁的MiniCPM-o 2.6模型,以8B參數(shù)實現(xiàn)了與GPT-4o相當?shù)娜B(tài)實時流式視頻理解和高級語音對話能力,并具備更強的環(huán)境感知能力。其優(yōu)勢在于端側部署,避免了云端模型的延遲和可靠性問題。MiniCPM-o 2.6的技術突破主要體現(xiàn)在端到端全模態(tài)流式架構、低延遲模態(tài)并發(fā)技術和端到端全模態(tài)流式學習三個方面。這標志著端側模型在性能和應用上取得了重大進展。
3. “能力密度”定律與未來展望
面壁團隊提出了“能力密度”定律,認為模型能力密度隨時間呈指數(shù)級增長,模型參數(shù)規(guī)模將持續(xù)下降,同時模型推理和訓練開銷也會顯著降低。這為端側模型的發(fā)展提供了理論支撐,也預示著未來以更少的資源實現(xiàn)更高智能水平成為可能。 面壁的理念是務實的理想主義,他們認為AI最終應服務于人,高效的AI技術才能真正惠及社會。
4. 挑戰(zhàn)與機遇并存
雖然端側模型發(fā)展迅速,但仍面臨內存、功耗和算力等硬件瓶頸。 然而,芯片技術的進步和模型訓練技術的優(yōu)化正在逐漸克服這些挑戰(zhàn)。 面壁和DeepSeek等公司在高效模型訓練方面的探索,為大模型技術的發(fā)展帶來了新的方向,也為大模型的落地應用提供了更多可能性。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。