<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        專家模型不要專家并行!微軟開源MoE新路徑

        AIGC動態11個月前發布 新智元
        317 0 0

        專家模型不要專家并行!微軟開源MoE新路徑

        AIGC動態歡迎閱讀

        原標題:專家模型不要專家并行!微軟開源MoE新路徑
        關鍵字:模型,專家,梯度,張量,吞吐量
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:alan
        【新智元導讀】近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。繼Phi家族之后,微軟又開源了新的混合專家大模型——GRIN MoE。
        與Phi-3.5同樣的個頭(16 * 3.8B),卻采用了截然不同的訓練方法。
        這個「不走尋常路」如果寫個太長不看版,那就是兩句話:
        1. 使用新一代SparseMixer來精確估計專家路由的梯度,解決傳統方案中利用門控梯度代替路由梯度的問題。
        2. 專家并行不要了,訓練中改用數據、pipeline和張量并行,避免了傳統方法丟棄token的問題。
        論文地址:https://arxiv.org/abs/2409.12136
        當然了,上面兩句話是小編說的,多少有點糙,文中細節,還請諸君繼續閱讀~
        這年頭,新來一個LLM,當然要先刷分了——
        參數要少,效果要好,所以要在左上角:
        GRIN作為MoE架構,總參數量約42B,推理時激活的參數為6.6B,打同級別(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3還要略勝一籌。
        在上面的這份成績單中,GRIN MoE表現優異,尤其是在編


        原文鏈接:專家模型不要專家并行!微軟開源MoE新路徑

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 人妻免费久久久久久久了| 亚洲精品电影天堂网| 亚洲国产成人久久精品软件| 国产又大又粗又长免费视频| 久久亚洲AV成人出白浆无码国产| 999zyz**站免费毛片| 久久久精品国产亚洲成人满18免费网站 | 亚洲高清一区二区三区电影| 成年女人18级毛片毛片免费 | AV免费网址在线观看| 亚洲人成网男女大片在线播放| 久久午夜免费视频| 色偷偷女男人的天堂亚洲网| 100000免费啪啪18免进| 日本亚洲免费无线码| 成年人性生活免费视频| 亚洲日韩图片专区第1页| 成人A片产无码免费视频在线观看| 亚洲午夜国产精品无码| 免费一区二区无码东京热| 亚洲av成人无码久久精品| 成年女人A毛片免费视频| 亚洲色欲一区二区三区在线观看| 18禁在线无遮挡免费观看网站| 久久精品国产精品亚洲艾草网| 精品成在人线AV无码免费看| 亚洲人成网站色7799| 久久国产成人亚洲精品影院| 国产精品免费观看调教网| 亚洲人色大成年网站在线观看| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 十九岁在线观看免费完整版电影| 亚洲第一区视频在线观看| 成年女性特黄午夜视频免费看| 青青草97国产精品免费观看| 午夜亚洲国产理论秋霞| 成人免费毛片视频| 中文字幕无线码中文字幕免费 | 亚洲成在人线中文字幕| 免费精品国产自产拍观看| 久久99精品免费视频|