ICLR 2024 Oral | 三行代碼,即插即用!NUS尤洋團(tuán)隊(duì)新作—InfoBatch,無損數(shù)據(jù)集動態(tài)剪枝加速
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ICLR 2024 Oral | 三行代碼,即插即用!NUS尤洋團(tuán)隊(duì)新作—InfoBatch,無損數(shù)據(jù)集動態(tài)剪枝加速
關(guān)鍵字:樣本,數(shù)據(jù),方法,梯度,開銷
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):6415字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投
本文介紹來自NUS尤洋團(tuán)隊(duì)的最新科研成果 – InfoBatch。這是首篇關(guān)于無損數(shù)據(jù)剪枝加速的工作,覆蓋分類、分割、檢測、圖片生成、LLM指令微調(diào)等任務(wù)。作為一個即插即用且與架構(gòu)無關(guān)的框架,在實(shí)際應(yīng)用中,InfoBatch 可以無損地節(jié)省 40% 的總開銷(時間和計(jì)算)。隨著深度學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)量和數(shù)據(jù)集規(guī)模增長,算力需求日益增加,如何節(jié)省訓(xùn)練成本正在成為逐漸凸顯的需求。現(xiàn)有的數(shù)據(jù)集壓縮方法大多開銷較高,且難以在達(dá)到無損的情況下獲得可觀的節(jié)省率;加權(quán)抽樣的相關(guān)方法則對于模型和數(shù)據(jù)集的特點(diǎn)較為敏感且依賴于重復(fù)抽樣假設(shè),在實(shí)際應(yīng)用中難以和已完成調(diào)參的學(xué)習(xí)率調(diào)整策略結(jié)合。兩種從數(shù)據(jù)角度出發(fā)的方法在實(shí)踐中很難真正幫助節(jié)省計(jì)算。
在本篇工作中,研究者從數(shù)據(jù)迭代這個角度切入進(jìn)行了研究。長久以來,數(shù)據(jù)集的迭代方式大都采用隨機(jī)迭代。對此,作者提出了InfoBatch框架,根據(jù)網(wǎng)絡(luò)對樣本的擬合情況進(jìn)行動態(tài)剪枝采樣的方法,并利用重縮放(rescaling)來維持剪枝后的梯度更新(Gradient Update)期望,以此在性能無損的情況下提高訓(xùn)練效率,加快訓(xùn)練速度。
Info
原文鏈接:ICLR 2024 Oral | 三行代碼,即插即用!NUS尤洋團(tuán)隊(duì)新作—InfoBatch,無損數(shù)據(jù)集動態(tài)剪枝加速
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化