NeurIPS 2024 Oral | 小參數(shù),大作為!揭秘非對稱 LoRA 架構(gòu)的高效性能
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2024 Oral | 小參數(shù),大作為!揭秘非對稱 LoRA 架構(gòu)的高效性能
關(guān)鍵字:矩陣,任務(wù),參數(shù),領(lǐng)域,組件
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文剛剛中稿 NeurIPS Oral(64/15671 =0.4%),作者分別來自澳門大學(xué)、德克薩斯大學(xué)奧斯汀分校以及劍橋大學(xué)。其中,第一作者田春霖是澳門大學(xué)計(jì)算機(jī)系的三年級博士生,研究方向涉及 MLSys 和高效大語言模型。師從栗力、須成忠教授。
大型語言模型(LLMs)雖然在適應(yīng)新任務(wù)方面取得了長足進(jìn)步,但它們?nèi)悦媾R著巨大的計(jì)算資源消耗,尤其在復(fù)雜領(lǐng)域的表現(xiàn)往往不盡如人意。為了緩解這一問題,業(yè)界提出了多種參數(shù)高效微調(diào)(PEFT)方法,例如 LoRA。然而,LoRA 在面對復(fù)雜數(shù)據(jù)集時(shí),總是難以與全參數(shù)微調(diào)的表現(xiàn)相媲美,尤其當(dāng)任務(wù)之間充滿多樣性時(shí),效果更是大打折扣。
為了突破這一瓶頸,來自澳門大學(xué)、德克薩斯大學(xué)奧斯汀分校以及劍橋大學(xué)的研究者聯(lián)合提出了一
原文鏈接:NeurIPS 2024 Oral | 小參數(shù),大作為!揭秘非對稱 LoRA 架構(gòu)的高效性能
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:
相關(guān)文章
