AIGC動態歡迎閱讀
原標題:馬斯克燒60億美元難題,國內大廠有解?開源MoE模算效率黑馬登場,3.7B參數單挑Llama 3-70B
關鍵字:模型,專家,門控,數據,代碼
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】馬斯克最近哭窮表示,xAI需要部署10萬個H100才能訓出Grok 3,影響全球的大模型算力荒怎么解?昨天開源的這款MoE大模型,只用了1/19算力、1/19激活參數,性能就直接全面對標Llama 3-70B!如今,想訓個SOTA的大模型,不僅缺數據和算力,甚至連電都不夠用了。
最近馬斯克就公開表示,因為苦于買不到足夠的芯片,xAI只能推遲Gork 2的訓練和發布。
Grok 3及更高版本,甚至需要10萬個H100,按每臺H100售價3萬美元來算,僅芯片就要花掉28億美元。
而且在未來幾年,xAI在云服務器上可能就要花費100億美元,直接逼得馬斯克自謀生路,開建起自己的「超級計算工廠」。
那么問題來了,有沒有一種可能,只用更少的算力,就讓大模型實現更高的性能?
就在5月28日,浪潮信息給業界打了個樣——全面開源MoE模型「源2.0-M32」!
簡單來說,源2.0-M32是一個包含了32個專家(Expert)的混合專家模型,總參數量達到了400億,但激活參數僅37億。
開源項目地址:https://github.com/IEIT-Yuan/Yuan
原文鏈接:馬斯克燒60億美元難題,國內大廠有解?開源MoE模算效率黑馬登場,3.7B參數單挑Llama 3-70B
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。