單節(jié)點8xA800跑起來HuggingFace DeepSeek V2踩坑
AIGC動態(tài)歡迎閱讀
原標題:單節(jié)點8xA800跑起來HuggingFace DeepSeek V2踩坑
關鍵字:騰訊,報告,模型,節(jié)點,峰會
文章來源:算法邦
內(nèi)容字數(shù):4701字
內(nèi)容摘要:
【2024騰訊云生成式AI產(chǎn)業(yè)應用峰會】定檔5月17日,完整議程已公布,騰訊集團高級執(zhí)行副總款、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生等6位騰訊云高管、負責人聚焦大模型落地場景需求,將發(fā)布混元大模型最新進展,以及15+款重磅產(chǎn)品,歡迎報名預約直播。背景
嘗試跑起來HuggingFace上release的DeepSeek V2,踩了幾個坑,這里給出解決的方法。
HuggingFace提供的開源DeepSeek V2 repo鏈接為:https://huggingface.co/deepseek-ai/DeepSeek-V2
01報錯1: KeyError: ‘sdpa’這個問題社區(qū)也有人反饋了。https://huggingface.co/deepseek-ai/DeepSeek-V2/discussions/3
在這里插入圖片描述
解決方法很簡單,在工程里面的config.json最后加一句”_attn_implementation”: “flash_attention_2″即可:
在這里插入圖片描述
02報錯2: 初始化階段卡死已經(jīng)給accelerate提了一個pr解決這個問題。https:
原文鏈接:單節(jié)點8xA800跑起來HuggingFace DeepSeek V2踩坑
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...