AIGC動態歡迎閱讀
原標題:400萬token上下文、推理再加速46%!最新開源方案升級MIT成果,推理成本再降低
關鍵字:模型,注意力,窗口,效果,機制
文章來源:量子位
內容字數:4665字
內容摘要:
明敏 發自 凹非寺量子位 | 公眾號 QbitAI22倍加速還不夠,再來提升46%,而且方法直接開源!
這就是開源社區改進MIT爆火項目StreamingLLM的最新成果。
StreamingLLM可以在不犧牲生成效果、推理速度的前提下,實現多輪對話共400萬個token,22.2倍推理速度提升。
該項目在上線不到3個月時間內,GitHub項目標星達到5.7k star。
不過,StreamingLLM使用原生PyTorch實現,對于多輪對話推理場景落地應用的低成本、低延遲、高吞吐等需求仍有優化空間。
Colossal-AI團隊開源了SwiftInfer,基于TensorRT的StreamingLLM,可以進一步提升大模型推理性能46%,有效解決如上問題。
具體如何實現?一起來看。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM如何實現超長多輪對話?大語言模型能夠記住的上下文長度,直接影響了ChatGPT等大模型應用與用戶互動的質量。
如何讓LLM在多輪對話場景下保持生成質量,對推理系統提出了更高的要求,因為LLM在預
原文鏈接:400萬token上下文、推理再加速46%!最新開源方案升級MIT成果,推理成本再降低
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...