FP8 低精度訓(xùn)練:Transformer Engine 簡析
AIGC動態(tài)歡迎閱讀
原標(biāo)題:FP8 低精度訓(xùn)練:Transformer Engine 簡析
關(guān)鍵字:精度,模型,數(shù)據(jù),數(shù)值,框架
文章來源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大模型時代最火AI芯片峰會來啦!!9月6-7日,由智猩猩聯(lián)合主辦的2024全球AI芯片峰會將在北京舉行。峰會設(shè)有數(shù)據(jù)中心AI芯片、智算集群技術(shù)論壇等7大板塊。目前,清華大學(xué)教授、集成電路學(xué)院副院長尹首一 ,AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng),高通AI產(chǎn)品技術(shù)中國區(qū)負(fù)責(zé)人萬衛(wèi)星,摩爾線程高級產(chǎn)品總監(jiān)付海良波等30+位嘉賓已確認(rèn)參會。掃名~原文:https://zhuanlan.zhihu.com/p/700874387
01背景介紹業(yè)界廣泛采用 FP16、BF16 混合精度(AMP)進(jìn)行模型訓(xùn)練。AMP 能在下游任務(wù)不掉點的前提下提升訓(xùn)練效率、減少顯存等資源占用,如今也常用于大模型預(yù)訓(xùn)練、微調(diào)等任務(wù)。
Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 訓(xùn)練(torch.amp),過往 AMP 功能由 NVIDIA APEX 庫實現(xiàn)。
NVIDIA GPU 自 Hopper 架構(gòu)起支持 FP8 精度的 Tensor Core 計算,相比于 FP16/BF16 精度,F(xiàn)P8 具有如下優(yōu)勢:
更強(qiáng)的計算性能
對比 A100 BF16 精度訓(xùn)練,H100 FP8 訓(xùn)
原文鏈接:FP8 低精度訓(xùn)練:Transformer Engine 簡析
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: