顛覆傳統(tǒng):騰訊優(yōu)圖與中科大攜手推出全新模型知識蒸餾SOTA!
一種基于Sinkhorn距離的知識蒸餾方法
原標(biāo)題:模型知識蒸餾新SOTA!告別傳統(tǒng)散度蒸餾|騰訊優(yōu)圖&中科大出品
文章來源:量子位
內(nèi)容字?jǐn)?shù):6619字
基于Sinkhorn距離的知識蒸餾新方法SinKD
最近,中科大和騰訊優(yōu)圖實(shí)驗(yàn)室提出了一種新的知識蒸餾方法SinKD,旨在通過Sinkhorn距離來改善大語言模型(LLMs)向小模型的知識轉(zhuǎn)移。這一方法能夠在不同類型和架構(gòu)的LLMs上實(shí)現(xiàn)更優(yōu)秀的性能,超越了現(xiàn)有的最先進(jìn)技術(shù)(SOTA)。
1. 研究背景
知識蒸餾(KD)是一種通過對教師模型的輸出進(jìn)行軟目標(biāo)對齊,將其知識傳遞給學(xué)生模型的技術(shù)。傳統(tǒng)的KD方法主要依賴于KL散度、RKL散度和JS散度等度量,這些方法在模型輸出差異較大時(shí)表現(xiàn)不佳,容易導(dǎo)致學(xué)生模型學(xué)習(xí)到過于平滑或低估稀有的概率。
2. SinKD的優(yōu)勢
SinKD采用了Sinkhorn距離作為新的散度度量,克服了傳統(tǒng)KD方法的局限性。Sinkhorn距離能夠更準(zhǔn)確地衡量教師和學(xué)生模型之間的差異,避免了KL散度的非對稱性,以及模式崩潰與模式平均的問題。此外,SinKD通過批量重構(gòu)捕捉樣本分布的幾何復(fù)雜性,使得模型在高維空間中更具適應(yīng)性。
3. 方法介紹
SinKD方法的核心在于使用批量化的Sinkhorn距離來進(jìn)行知識蒸餾。該方法通過定義一個(gè)包含多個(gè)樣本的批次來整體參與散度度量,顯著提高了對復(fù)雜分布的捕捉能力。此外,SinKD還適用于回歸任務(wù)及獨(dú)熱標(biāo)簽微調(diào),從而擴(kuò)展了其應(yīng)用范圍。
4. 實(shí)驗(yàn)與結(jié)果
在GLUE和SuperGLUE等多個(gè)自然語言處理任務(wù)上,SinKD顯示出顯著的性能提升,相較于基線和當(dāng)前SOTA方法,均取得了更好的結(jié)果。消融實(shí)驗(yàn)表明,Sinkhorn損失對學(xué)生模型的提升作用最大,批量化的SinKD優(yōu)于逐樣本的KD方法。
5. 總結(jié)與展望
SinKD方法不僅解決了現(xiàn)有知識蒸餾技術(shù)的不足,還通過批量化重構(gòu)增強(qiáng)了模型的表現(xiàn)。研究表明,SinKD在各種任務(wù)和模型架構(gòu)中表現(xiàn)優(yōu)異,未來將有望在計(jì)算機(jī)視覺等其他領(lǐng)域進(jìn)一步應(yīng)用。
如需了解更多細(xì)節(jié),請查閱原論文鏈接。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破