LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究
關(guān)鍵字:矩陣,任務(wù),模型,作者,權(quán)重
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5854字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI大數(shù)據(jù)巨頭Databricks與哥倫比亞大學(xué)最新研究發(fā)現(xiàn),在數(shù)學(xué)和編程任務(wù)上,LoRA干不過(guò)全量微調(diào)。
具體來(lái)說(shuō),在這兩種任務(wù)中,LoRA模型的精確度只有后者的八到九成左右。
不過(guò),作者也發(fā)現(xiàn),LoRA雖然學(xué)得少,但是“記憶力”卻更好,遺忘現(xiàn)象要比全量微調(diào)少得多。
究其原因,作者認(rèn)為是數(shù)學(xué)和代碼任務(wù)的特性與LoRA的低秩“八字不合”,遺忘更少也與秩相關(guān)。
但LoRA的一個(gè)公認(rèn)的優(yōu)勢(shì)是訓(xùn)練成本更低;而且相比全量微調(diào),能夠更好地保持原有模型性能。
于是,網(wǎng)友們的看法也自然地分成了兩派:
一波人認(rèn)為,單純考慮降低成本用LoRA,表現(xiàn)卻顯著降低,這是不可接受的。
更具針對(duì)性的,有人指出,對(duì)于數(shù)學(xué)和代碼這樣對(duì)精度要求高的任務(wù),一定要最大程度地保證性能,哪怕?tīng)奚恍┯?xùn)練成本。
另一波機(jī)器學(xué)習(xí)工程師則認(rèn)為,作者的一些實(shí)驗(yàn)參數(shù)設(shè)置不當(dāng),造成這種現(xiàn)象的原因不一定是LoRA本身。
質(zhì)疑的具體理由我們放到后面詳細(xì)講解,先來(lái)看看作者的研究都有哪些發(fā)現(xiàn)。
學(xué)的更少,但忘的也少實(shí)驗(yàn)中,作者使用7B參數(shù)的Llama2作為基礎(chǔ)模型,在持續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)兩種模式下分
原文鏈接:LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破