<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        微軟讓MoE長出多個頭,大幅提升專家激活率

        AIGC動態1年前 (2024)發布 機器之心
        380 0 0

        微軟讓MoE長出多個頭,大幅提升專家激活率

        AIGC動態歡迎閱讀

        原標題:微軟讓MoE長出多個頭,大幅提升專家激活率
        關鍵字:專家,多頭,語義,模型,語言
        文章來源:機器之心
        內容字數:7757字

        內容摘要:


        機器之心報道
        編輯:Panda WMH-MoE 能優化幾乎所有專家,實現起來非常簡單。混合專家(MoE)是個好方法,支持著現在一些非常優秀的大模型,比如谷歌家的 Gemini 1.5 以及備受關注的 Mixtral 8x7B。
        稀疏混合專家(SMoE)可在不顯著增加訓練和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一個 SMoE 模型,其包含 8 個專家(共 7B 參數),而其表現卻可以超過或比肩 LLaMA-2 70B 和 GPT-3.5。
        但是,它也有兩個問題。一是專家激活率低 —— 也就是搞不好會出現下圖這種情況:具體來說,就是在優化時只有一小部分專家會被激活,如圖 1a 所示(8.33% 的激活率),這會導致在學習應對復雜任務的大量專家時,會出現性能次優和效果不佳的問題。二是無法細粒度地分析單個 token 的多重語義概念,比如多義詞和具有多重細節的圖塊。
        近日,微軟研究院和清華大學提出了多頭混合專家(MH-MoE)。顧名思義,MH-MoE 采用了多頭機制,可將每個輸入 token 分成多個子 token。然后將這些子 token 分配給一組多樣化的專家


        原文鏈接:微軟讓MoE長出多個頭,大幅提升專家激活率

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕免费在线看线人 | 亚洲av伊人久久综合密臀性色 | 在线看片免费人成视频久网下载 | 国产91免费在线观看| 亚洲精品成人av在线| 国产午夜不卡AV免费| 亚洲精品乱码久久久久久| 日韩a级无码免费视频| 亚洲国产综合专区在线电影| 免费成人在线视频观看| 亚洲邪恶天堂影院在线观看| 一级毛片不卡片免费观看| 久久综合亚洲色一区二区三区| 69式互添免费视频| 亚洲人成影院77777| 女性无套免费网站在线看| 亚洲AV日韩综合一区| 男女午夜24式免费视频| 亚洲国产综合专区在线电影| 免费观看美女用震蛋喷水的视频| 国产精品高清视亚洲精品| 日美韩电影免费看| 一区二区三区免费视频观看| 妞干网免费视频在线观看| 香港经典a毛片免费观看看| 国产aⅴ无码专区亚洲av麻豆 | 亚洲伊人久久综合中文成人网| 成人片黄网站色大片免费观看cn| 亚洲s色大片在线观看| 99无码人妻一区二区三区免费| 亚洲高清国产拍精品熟女| 久久久久亚洲AV综合波多野结衣 | 少妇性饥渴无码A区免费| 亚洲欧洲国产经精品香蕉网| 日韩中文无码有码免费视频| 一本岛v免费不卡一二三区| 亚洲高清视频在线播放| 成人免费无码精品国产电影| 久久精品成人免费看| 亚洲精华液一二三产区| 亚洲av丰满熟妇在线播放|