Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)
關(guān)鍵字:數(shù)值,偏差,模型,權(quán)重,研究者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8577字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部Meta FAIR 聯(lián)合哈佛優(yōu)化大規(guī)模機(jī)器學(xué)習(xí)時(shí)產(chǎn)生的數(shù)據(jù)偏差,提供了新的研究框架。眾所周知,大語(yǔ)言模型的訓(xùn)練常常需要數(shù)月的時(shí)間,使用數(shù)百乃至上千個(gè) GPU。以 LLaMA2 70B 模型為例,其訓(xùn)練總共需要 1,720,320 GPU hours。由于這些工作負(fù)載的規(guī)模和復(fù)雜性,導(dǎo)致訓(xùn)練大模型存在著獨(dú)特的系統(tǒng)性挑戰(zhàn)。
最近,許多機(jī)構(gòu)在訓(xùn)練 SOTA 生成式 AI 模型時(shí)報(bào)告了訓(xùn)練過(guò)程中的不穩(wěn)定情況,它們通常以損失尖峰的形式出現(xiàn),比如谷歌的 PaLM 模型訓(xùn)練過(guò)程現(xiàn)了多達(dá) 20 次的損失尖峰。
數(shù)值偏差是造成這種訓(xùn)練不穩(wěn)定性的潛在原因,由于大語(yǔ)言模型訓(xùn)練運(yùn)行成本極高,如何量化數(shù)值偏差儼然成為關(guān)鍵問(wèn)題。
在最新的一項(xiàng)工作中,來(lái)自 Meta、哈佛大學(xué)的研究者開(kāi)發(fā)了一個(gè)定量方法來(lái)理解訓(xùn)練優(yōu)化中的數(shù)值偏差,以此評(píng)估不同的最新優(yōu)化技術(shù),并確定它們?cè)谟糜谟?xùn)練大模型時(shí)是否可能引入意外的不穩(wěn)定性。論文標(biāo)題:Is Flash Attention Stable?
論文鏈接:https://arxiv.org/pdf/2405.02803
結(jié)果發(fā)現(xiàn),在一次單獨(dú)的前向傳遞
原文鏈接:Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)