AIGC動態歡迎閱讀
原標題:比LoRA還快50%的微調方法來了!一張3090性能超越全參調優,UIUC聯合LMFlow團隊提出LISA
關鍵字:技術,模型,性質,算法,消耗
文章來源:機器之心
內容字數:3392字
內容摘要:
機器之心專欄
機器之心編輯部2022 年底,隨著 ChatGPT 的爆火,人類正式進入了大模型時代。然而,訓練大模型需要的時空消耗依然居高不下,給大模型的普及和發展帶來了巨大困難。面對這一挑戰,原先在計算機視覺領域流行的 LoRA 技術成功轉型大模型 [1][2],帶來了接近 2 倍的時間加速和理論最高 8 倍的空間壓縮,將微調技術帶進千家萬戶。
但 LoRA 技術仍存在一定的挑戰。一是 LoRA 技術在很多任務上還沒有超過正常的全參數微調 [2][3][4],二是 LoRA 的理論性質分析比較困難,給其進一步的研究帶來了阻礙。
UIUC 聯合 LMFlow 團隊成員對 LoRA 的實驗性質進行了分析,意外發現 LoRA 非常側重 LLM 的底層和頂層的權重。利用這一特性,LMFlow 團隊提出一個極其簡潔的算法:Layerwise Importance Sampled AdamW(LISA)。論文鏈接:https://arxiv.org/abs/2403.17919
開源地址:https://github.com/OptimalScale/LMFlow
LISA 介紹LISA 算法的
原文鏈接:比LoRA還快50%的微調方法來了!一張3090性能超越全參調優,UIUC聯合LMFlow團隊提出LISA
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...