深入淺出Batch Size,對(duì)模型訓(xùn)練的影響分析
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:深入淺出Batch Size,對(duì)模型訓(xùn)練的影響分析
關(guān)鍵字:批量,大小,梯度,損失,權(quán)重
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
開講預(yù)告11月7日晚7點(diǎn),上海 AI Lab OpenGVLab 博士后研究員羅根,將以《Mono-InternVL: 突破原生多模態(tài)大模型性能瓶頸》為主題進(jìn)行直播講解,歡迎掃名~文章轉(zhuǎn)載自公眾號(hào):江大白,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。導(dǎo)讀對(duì)于一些同學(xué)來說Batch Size只是一個(gè)可以隨便調(diào)節(jié)以適應(yīng)不同顯存環(huán)境的參數(shù),事實(shí)真是如此嗎。本文將結(jié)合一些理論知識(shí),通過大量實(shí)驗(yàn),探討B(tài)atch Size的大小對(duì)訓(xùn)練模型及模型性能的影響,希望對(duì)大家有所幫助。在本文中,我們?cè)噲D更好地理解批量大小對(duì)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的影響。具體而言,我們將涵蓋以下內(nèi)容:
什么是Batch Size?
為什么Batch Size很重要?
小批量和大批量如何憑經(jīng)驗(yàn)執(zhí)行?
為什么大批量往往性能更差,如何縮小性能差距?
01什么是Batch Size?訓(xùn)練神經(jīng)網(wǎng)絡(luò)以最小化以下形式的損失函數(shù):
theta 代表模型參數(shù)
m 是訓(xùn)練數(shù)據(jù)樣本的數(shù)量
i 的每個(gè)值代表一個(gè)單一的訓(xùn)練數(shù)據(jù)樣本
J_i 表示應(yīng)用于單個(gè)訓(xùn)練樣本的損失函數(shù)
通常,這是使用梯度下降來完成的,它計(jì)算損失函數(shù)相對(duì)于參數(shù)的梯度,并在該方向上邁出一步。
原文鏈接:深入淺出Batch Size,對(duì)模型訓(xùn)練的影響分析
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介: