<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器

        AIGC動態(tài)3個(gè)月前發(fā)布 機(jī)器之心
        565 0 0

        又「撞車」了。

        開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器

        原標(biāo)題:開源賽道太擠了!月之暗面開源新版Muon優(yōu)化器
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):5559字

        月之暗面開源高效優(yōu)化器Muon:算力減半,效果翻倍

        近日,月之暗面團(tuán)隊(duì)搶先DeepSeek,開源了其改進(jìn)版的Muon優(yōu)化器,并發(fā)布了基于Muon訓(xùn)練的3B/16B參數(shù)MoE模型Moonlight。該優(yōu)化器在訓(xùn)練大型語言模型方面展現(xiàn)出顯著優(yōu)勢,僅需約52%的AdamW訓(xùn)練FLOPs即可達(dá)到相當(dāng)?shù)男阅埽瑢?shí)現(xiàn)了算力減半,效果翻倍的目標(biāo)。

        1. Muon優(yōu)化器改進(jìn)及高效性

          原始Muon優(yōu)化器在小型語言模型訓(xùn)練中表現(xiàn)出色,但擴(kuò)展到大模型時(shí)性能提升減弱。月之暗面團(tuán)隊(duì)通過添加權(quán)重衰減和一致的RMS更新兩項(xiàng)關(guān)鍵技術(shù)解決了這個(gè)問題。權(quán)重衰減防止模型權(quán)重過度增長,而一致的RMS更新確保了不同形狀矩陣之間更新的一致性,從而提高了Muon在大規(guī)模訓(xùn)練中的穩(wěn)定性和效率。Scaling law實(shí)驗(yàn)表明,Muon的計(jì)算效率比AdamW提升了2倍。

        2. Moonlight模型及性能突破

          利用改進(jìn)后的Muon優(yōu)化器,月之暗面團(tuán)隊(duì)訓(xùn)練了Moonlight,一個(gè)3B/16B參數(shù)的MoE模型,訓(xùn)練數(shù)據(jù)量達(dá)5.7萬億tokens。Moonlight刷新了當(dāng)前的“帕累托前沿”,在相同訓(xùn)練預(yù)算下,性能全面領(lǐng)先其他模型。它以更少的訓(xùn)練FLOPs獲得了更好的性能,在語言、數(shù)學(xué)和編碼等任務(wù)上均表現(xiàn)出色。

        3. 分布式Muon及實(shí)驗(yàn)結(jié)果

          團(tuán)隊(duì)還提出了一種基于ZeRO-1的分布式Muon解決方案,提高了訓(xùn)練效率。實(shí)驗(yàn)結(jié)果表明,通過調(diào)整RMS值,Muon可以與AdamW保持一致性,并顯著提升模型性能。在與AdamW的對比實(shí)驗(yàn)中,Muon在計(jì)算最優(yōu)設(shè)置下,僅需約52%的訓(xùn)練FLOPs即可達(dá)到與AdamW相當(dāng)?shù)男阅堋?/p>

        4. Muon在模型架構(gòu)中的表現(xiàn)

          使用DeepSeek-V3-Small架構(gòu)從頭開始預(yù)訓(xùn)練的Moonlight模型,在與其他開源模型的比較中,展現(xiàn)出顯著的性能優(yōu)勢,證明了Muon在模型架構(gòu)中的有效性。此外,Muon還能使模型的權(quán)重更新更“多樣化”,尤其在MoE模型中表現(xiàn)突出。在預(yù)訓(xùn)練和微調(diào)階段都使用Muon,模型表現(xiàn)最佳。

        5. 開源貢獻(xiàn)及未來研究

          月之暗面團(tuán)隊(duì)開源了Muon的內(nèi)存優(yōu)化且通信高效的實(shí)現(xiàn)代碼,以及預(yù)訓(xùn)練、指令調(diào)優(yōu)和中間檢查點(diǎn),為未來的研究提供了寶貴的資源。此次開源,再次體現(xiàn)了月之暗面在大型語言模型研究領(lǐng)域的領(lǐng)先地位。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 在线观看日本亚洲一区 | 中文字幕在线观看免费视频| 亚洲综合另类小说色区色噜噜| 亚洲AV成人精品日韩一区| 日韩av无码成人无码免费| 亚洲国产日韩精品| 手机在线免费视频| 亚洲精品无码专区| 四虎成人精品在永久免费| 美女黄网站人色视频免费| 亚洲成av人片不卡无码久久| 久青草国产免费观看| av在线亚洲欧洲日产一区二区| www在线观看播放免费视频日本| 亚洲熟妇av一区二区三区| 久久香蕉国产线看免费| 精品日韩亚洲AV无码| 男男AV纯肉无码免费播放无码| 亚洲中文字幕无码中文字| 全部免费毛片在线| 国产一级在线免费观看| 老汉色老汉首页a亚洲| 波多野结衣在线免费视频 | 中文字幕亚洲电影| 久久国产精品免费网站| 亚洲国产精品人久久电影| 免费黄色网址入口| 无码精品人妻一区二区三区免费| 亚洲人成伊人成综合网久久久| 曰批全过程免费视频网址| 亚洲一日韩欧美中文字幕在线| vvvv99日韩精品亚洲| 中文字幕无码免费久久| 亚洲AV无码乱码在线观看代蜜桃| 全部免费国产潢色一级| 无码精品一区二区三区免费视频 | 国产麻豆视频免费观看| 激情吃奶吻胸免费视频xxxx| 亚洲国语精品自产拍在线观看| 色窝窝免费一区二区三区 | 久久免费香蕉视频|