別再「浪費」GPU了,F(xiàn)lashAttention重磅升級,實現(xiàn)長文本推理速度8倍提升
AIGC動態(tài)歡迎閱讀
原標(biāo)題:別再「浪費」GPU了,F(xiàn)lashAttention重磅升級,實現(xiàn)長文本推理速度8倍提升
文章來源:機器之心
內(nèi)容字?jǐn)?shù):6435字
內(nèi)容摘要:機器之心報道機器之心編輯部處理小說、法律文件等長文本是大模型的一個重要應(yīng)用方向,但也面臨速度上的挑戰(zhàn)。FlashAttention 作者 Tri Dao 等人提出的「Flash-Decoding」通過充分利用 GPU,可以將大模型的長上下文推理速度提高至 8 倍。最近,像 ChatGPT 或 Llama 這樣的大型語言模型(LLM)引起了前所未有的關(guān)注。然而,它們的運行成本仍然極高。雖然生成單個響…
原文鏈接:點此閱讀原文:別再「浪費」GPU了,F(xiàn)lashAttention重磅升級,實現(xiàn)長文本推理速度8倍提升
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...