比LoRA更高效!上交大&哈佛推出新微調(diào)框架,瞄準(zhǔn)特定任務(wù)方向
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:比LoRA更高效!上交大&哈佛推出新微調(diào)框架,瞄準(zhǔn)特定任務(wù)方向
關(guān)鍵字:方向,矩陣,任務(wù),定義,向量
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
DV lab 投稿量子位 | 公眾號(hào) QbitAI比LoRA更高效的模型微調(diào)方法來了——
以常識(shí)推理為例,在參數(shù)量減少8~16倍的情況下,兩種方法能達(dá)到相同效果。
新方法名叫LoRA-Dash,由來自上海交通大學(xué)和哈佛大學(xué)的研究人員提出,主要針對(duì)特定任務(wù)微調(diào)模型往往需要大量計(jì)算資源這一痛點(diǎn)。
研究完成的主要工作是:
對(duì)高效微調(diào)過程中的TSD(Task-specific Directions, 特定任務(wù)方向)進(jìn)行了嚴(yán)格定義,并詳細(xì)分析了其性質(zhì)。
為了進(jìn)一步釋放TSD在下游任務(wù)中的潛力,提出新的高效微調(diào)方法LoRA-Dash。
來看具體內(nèi)容。
從頭搭建特定任務(wù)方向的框架隨著大型語言模型的發(fā)展,針對(duì)特定任務(wù)微調(diào)模型往往需要大量計(jì)算資源。
為了解決這一問題,參數(shù)高效微調(diào)(PEFT)策略應(yīng)運(yùn)而生,像LoRA等方法被廣泛應(yīng)用。
在LoRA中,作者們通過一系列實(shí)驗(yàn)發(fā)現(xiàn),LoRA本質(zhì)上是捕捉一些預(yù)訓(xùn)練中已學(xué)習(xí)到的但并不重要的方向,這些方向?qū)?yīng)的特征在之后的下游任務(wù)中被LoRA放大。
LoRA把這些方向定義為“特定任務(wù)方向”(Task-specific Directions, TSD)。
然而,在LoR
原文鏈接:比LoRA更高效!上交大&哈佛推出新微調(diào)框架,瞄準(zhǔn)特定任務(wù)方向
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: