用上這個(gè)工具包,大模型推理性能加速達(dá)40倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:用上這個(gè)工具包,大模型推理性能加速達(dá)40倍
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):12295字
內(nèi)容摘要:作者:英特爾公司 沈海豪、羅嶼、孟恒宇、董波、林俊編者按:只需不到9行代碼,就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。英特爾?Extension for Transformer創(chuàng)新工具包中的LLM Runtime為諸多模型顯著降低時(shí)延,且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍,還能滿足更多場(chǎng)景應(yīng)用需求。英特爾?Extension for Transformer是什么?英特爾?Extension for Transformers[1]是英特爾推出的一個(gè)創(chuàng)新工具包,可基于英特爾?架構(gòu)平臺(tái),尤其是英特爾?至強(qiáng)?可擴(kuò)展處理器(代號(hào)Sapphire Rapids[2],SPR)顯著加速基于Transformer的大語(yǔ)言模型(Large Language Model,LLM)。其主要特性包括:通過(guò)擴(kuò)展Hugging Face transformers API[3]…
原文鏈接:點(diǎn)此閱讀原文:用上這個(gè)工具包,大模型推理性能加速達(dá)40倍
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章

暫無(wú)評(píng)論...