大模型無限流式輸入推理飆升46%！國產開源加速「全家桶」，打破多輪對話長度限制

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：大模型無限流式輸入推理飆升46%！國產開源加速「全家桶」，打破多輪對話長度限制
關鍵字：模型,注意力,窗口,機制,效果
文章來源：新智元
內容字數：4453字

內容摘要：

新智元報道編輯：好困桃子
【新智元導讀】大模型推理再次躍升一個新臺階！最近，全新開源的國產SwiftInfer方案，不僅能讓LLM處理無限流式輸入，而且還將推理性能提升了46%。在大型語言模型（LLM）的世界中，處理多輪對話一直是一個挑戰。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM，能夠在不犧牲推理速度和生成效果的前提下，可實現多輪對話總共400萬個token的流式輸入，22.2倍的推理速度提升。
但StreamingLLM使用原生PyTorch實現，對于多輪對話推理場景落地應用的低成本、低延遲、高吞吐等需求仍有優化空間。
Colossal-AI團隊開源了SwiftInfer，基于TensorRT實現了StreamingLLM，可以進一步提升大模型推理性能46%，為多輪對話推理提供了高效可靠的落地方案。
開源地址：https://github.com/hpcaitech/SwiftInfer
StreamingLLM簡介大語言模型能夠記住的上下文長度，直接影響了ChatGPT等大模型應用與用戶互動的質量。
如何讓LLM在多輪對話場景下保持生成質量，

原文鏈接：大模型無限流式輸入推理飆升46%！國產開源加速「全家桶」，打破多輪對話長度限制