華科重磅發(fā)布MoE Jetpack框架:助力收斂速度提升8倍,準(zhǔn)確率飛躍超30%!
原標(biāo)題:收斂速度最高8倍,準(zhǔn)確率提升超30%!華科發(fā)布MoE Jetpack框架 | NeurIPS 2024
文章來源:新智元
內(nèi)容字?jǐn)?shù):5563字
1. 引言
華中科技大學(xué)的研究人員提出了一種新穎的框架——MoE Jetpack,旨在通過Checkpoint Recycling方法和SpheroMoE結(jié)構(gòu),將密集激活模型的預(yù)訓(xùn)練權(quán)重高效微調(diào)為混合專家(MoE)模型。這一方法顯著提升了MoE模型在下游任務(wù)中的精度和收斂速度,減少了對預(yù)訓(xùn)練過程的依賴。
2. 混合專家模型概述
混合專家模型(MoE)通過動態(tài)激活網(wǎng)絡(luò)的一部分結(jié)構(gòu),提高計算效率,能夠在保持相對穩(wěn)定的計算成本下大幅增加參數(shù)量,從而有效提升模型性能。然而,MoE模型通常需要在大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,導(dǎo)致時間和資源的消耗極高,限制了其普及性。
3. MoE Jetpack的核心創(chuàng)新
MoE Jetpack的核心創(chuàng)新包括兩個主要部分:
(1) Checkpoint Recycling:通過采樣密集模型權(quán)重生成多樣化的專家,作為MoE模型的初始化權(quán)重,從而加速模型的收斂和提升性能,避免了大規(guī)模預(yù)訓(xùn)練的需求。
(2) SpheroMoE層:通過交叉注意力機(jī)制優(yōu)化專家分配,利用超球空間的投影提高微調(diào)過程的穩(wěn)定性,并通過專家正則化方法減輕過擬合。
4. 研究方法與實驗結(jié)果
研究中采用了Checkpoint Recycling技術(shù),通過四種主要的權(quán)重回收策略來初始化MoE模型。實驗結(jié)果顯示,在ImageNet-1K上,MoE Jetpack的收斂速度提高了2倍,準(zhǔn)確率提升達(dá)2.8%;在小規(guī)模數(shù)據(jù)集上,收斂速度提升可達(dá)8倍,準(zhǔn)確率提升超過30%。
5. 小結(jié)與展望
MoE Jetpack框架通過有效利用預(yù)訓(xùn)練密集模型的權(quán)重,不僅降低了MoE模型的訓(xùn)練成本和資源需求,還提高了模型在下游任務(wù)中的性能。該框架為混合專家模型的研究與應(yīng)用提供了新的可能,為研究者在普通計算資源下使用MoE模型提供了有力支持。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。