ICML 2024 | 梯度檢查點太慢?不降速、省顯存,LowMemoryBP大幅提升反向傳播顯存效率
AIGC動態(tài)歡迎閱讀
原標題:ICML 2024 | 梯度檢查點太慢?不降速、省顯存,LowMemoryBP大幅提升反向傳播顯存效率
關鍵字:顯存,函數(shù),模型,南開大學,理論
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文論文一作是南開大學統(tǒng)計與數(shù)據(jù)科學學院研二碩士生楊雨辰,指導老師為南開大學統(tǒng)計與數(shù)據(jù)科學學院的徐君副教授。徐君老師團隊的研究重點是計算機視覺、生成式 AI 和高效機器學習,并在頂級會議和期刊上發(fā)表了多篇論文,谷歌學術引用超過 4700 次。
自從大型 Transformer 模型逐漸成為各個領域的統(tǒng)一架構,微調(diào)就成為了將預訓練大模型應用到下游任務的重要手段。然而,由于模型的尺寸日益增大,微調(diào)所需要的顯存也逐漸增加,如何高效地降低微調(diào)顯存就成了一個重要的問題。此前,微調(diào) Transformer 模型時,為了節(jié)省顯存開銷,通常的做法是使用梯度檢查點(gradient checkpointing,也叫作激活重算),以犧牲訓練速度為代價降低反向傳播(Backprop
原文鏈接:ICML 2024 | 梯度檢查點太慢?不降速、省顯存,LowMemoryBP大幅提升反向傳播顯存效率
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺