參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
關(guān)鍵字:張量,參數(shù),維度,卷積,方法
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Huiser 投稿量子位 | 公眾號(hào) QbitAI為了讓大模型在特定任務(wù)、場(chǎng)景下發(fā)揮更大作用,LoRA這樣能夠平衡性能和算力資源的方在受到研究者們的青睞。
然而,以LoRA為代表的眾多低秩微調(diào)方法(包括DoRA, MoRA, AdaLoRA等衍生方法)仍存在一個(gè)問(wèn)題:
它們通常通常都更適合Linear層,Embedding層這類(lèi)“直入直出”的低維度張量,忽略了對(duì)更高維度甚至N維張量的考慮。
盡管這些方法可以通過(guò)一定方式將高維度張量轉(zhuǎn)化為2D張量來(lái)微調(diào)參數(shù),如LoRA將Conv2D卷積層參數(shù)所具有的四維張量轉(zhuǎn)化為二維張量。但其存在兩方面的挑戰(zhàn):
這種將卷積核拆開(kāi)分別reshape到,維度上的方法雖然避免了參數(shù)的大規(guī)模增加,但是破壞了卷積核本身的結(jié)構(gòu)特性。這對(duì)于密集預(yù)測(cè)類(lèi)任務(wù)所需要的局部歸納偏置是一種負(fù)向影響。
隨著張量維度的升高,reshape為二維的方式會(huì)造成急劇的參數(shù)量增加,背離了參數(shù)高效微調(diào)方法的初衷。
為了解決以上兩個(gè)問(wèn)題,來(lái)自上海交通大學(xué)、上海AI Lab的研究人員提出了FLoRA方法(flora意為植物群,具有廣泛的寓意)。
以視覺(jué)任務(wù)為例,F(xiàn)LoRA能在比LoRA少80
原文鏈接:參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破