原標題:「知識蒸餾+持續學習」最新綜述!哈工大、中科院出品:全新分類體系,十大數據集全面實驗
文章來源:新智元
內容字數:14584字
知識蒸餾在持續學習中的應用綜述
本文總結了哈爾濱工業大學和中科院自動化所研究人員發表在IEEE Transactions on Neural Networks and Learning Systems (TNNLS)上的一篇綜述論文,該論文系統地探討了知識蒸餾技術在持續學習中緩解災難性遺忘問題的應用。
1. 持續學習與災難性遺忘:持續學習旨在使模型能夠連續學習新任務,而不會忘記之前學到的知識。然而,神經網絡容易出現災難性遺忘,即在學習新任務時,對舊任務的性能急劇下降。知識蒸餾(KD)作為一種有效的緩解方法,通過讓新模型模仿舊模型的輸出,從而保留舊任務的知識。
2. 知識蒸餾在持續學習中的分類:論文提出了一種新的分類方法,將基于知識蒸餾的持續學習方法分為三大范式:
正則化的知識蒸餾:直接將知識蒸餾作為正則化項,約束模型參數變化,以保持舊任務的知識。這種方法簡單直接,但效果通常較弱。
知識蒸餾與數據回放結合:將知識蒸餾與數據回放技術相結合,從數據和模型兩個方面增強記憶保持能力。數據回放通過存儲和重放舊任務數據來減輕遺忘。該范式表現較好,但可能存在數據不平衡導致的分類偏差問題。
知識蒸餾與特征回放結合:無需存儲原始數據,通過回放特征信息來保留模型的記憶能力。該范式具有內存效率高,且能緩解分類偏差的優點。
3. 知識來源與蒸餾損失:論文根據知識來源將KD方法分為三個層次:logits級別、特征級別和數據級別。logits級別蒸餾模仿舊模型的輸出概率或logit值;特征級別蒸餾模仿中間層的特征表示;數據級別蒸餾則通過生成模型或其他方式對齊數據分布。不同的知識來源和蒸餾損失函數(如交叉熵、KL散度、L1/L2距離、余弦相似度)對最終效果有顯著影響。
4. 實驗結果與分析:論文在CIFAR-100、TinyImageNet和ImageNet-100數據集上進行了廣泛的實驗,驗證了知識蒸餾在減輕遺忘方面的有效性。實驗結果表明,“知識蒸餾與數據回放結合”范式的方法通常表現最佳,但分類偏差可能會削弱知識蒸餾的效果。使用separated softmax損失函數可以有效緩解這個問題。
5. 未來展望:論文展望了基于知識蒸餾的持續學習的未來研究方向,包括:
高質量知識的知識蒸餾:如何提取和傳遞更高質量的知識,是提升持續學習效果的關鍵。
針對特定任務的知識蒸餾:需要針對不同任務(如目標檢測、語義分割等)進行定制化設計。
更好的教師模型:利用預訓練模型(PTM)和大型語言模型(LLM)作為教師模型,可以更有效地指導學生模型學習。
總而言之,該綜述論文系統地總結了知識蒸餾在持續學習中的應用,為該領域的研究提供了寶貴的參考,并指出了未來研究的方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。