標(biāo)簽:張量
基于LLaMA卻改張量名,李開(kāi)復(fù)公司大模型引爭(zhēng)議,官方回應(yīng)來(lái)了
機(jī)器之心報(bào)道機(jī)器之心編輯部有研究者發(fā)現(xiàn),李開(kāi)復(fù)「零一萬(wàn)物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架構(gòu),只是重命名了兩個(gè)張量。對(duì)此,「零一萬(wàn)物」給出...
用FP8訓(xùn)練大模型有多香?微軟:比BF16快64%,省42%內(nèi)存
機(jī)器之心報(bào)道編輯:Panda低精度訓(xùn)練是大模型訓(xùn)練中擴(kuò)展模型大小,節(jié)約訓(xùn)練成本的最關(guān)鍵技術(shù)之一。相比于當(dāng)前的 16 位和 32 位浮點(diǎn)混合精度訓(xùn)練,使用 FP8 8 ...
蘋(píng)果創(chuàng)新大模型壓縮技術(shù),大模型有機(jī)會(huì)塞進(jìn)手機(jī)里了
機(jī)器之心報(bào)道編輯:趙陽(yáng)大模型的內(nèi)容安全問(wèn)題使得人們希望可以在終端設(shè)備上完成模型訓(xùn)練及運(yùn)行。對(duì)于手機(jī)來(lái)說(shuō),大模型的權(quán)重?cái)?shù)據(jù)顯得尤為龐大。大型語(yǔ)言模型...
LLaMA微調(diào)顯存需求減半,清華提出4比特優(yōu)化器
機(jī)器之心專欄作者:李炳睿大模型的訓(xùn)練和微調(diào)對(duì)顯存要求很高,優(yōu)化器狀態(tài)是顯存主要開(kāi)銷之一。近日,清華大學(xué)朱軍、陳鍵飛團(tuán)隊(duì)提出了用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的 4 比...