AIGC動態歡迎閱讀
原標題:大模型無限流式輸入推理飆升46%!國產開源加速「全家桶」,打破多輪對話長度限制
關鍵字:模型,注意力,窗口,機制,效果
文章來源:新智元
內容字數:4453字
內容摘要:
新智元報道編輯:好困 桃子
【新智元導讀】大模型推理再次躍升一個新臺階!最近,全新開源的國產SwiftInfer方案,不僅能讓LLM處理無限流式輸入,而且還將推理性能提升了46%。在大型語言模型(LLM)的世界中,處理多輪對話一直是一個挑戰。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能夠在不犧牲推理速度和生成效果的前提下,可實現多輪對話總共400萬個token的流式輸入,22.2倍的推理速度提升。
但StreamingLLM使用原生PyTorch實現,對于多輪對話推理場景落地應用的低成本、低延遲、高吞吐等需求仍有優化空間。
Colossal-AI團隊開源了SwiftInfer,基于TensorRT實現了StreamingLLM,可以進一步提升大模型推理性能46%,為多輪對話推理提供了高效可靠的落地方案。
開源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM簡介大語言模型能夠記住的上下文長度,直接影響了ChatGPT等大模型應用與用戶互動的質量。
如何讓LLM在多輪對話場景下保持生成質量,
原文鏈接:大模型無限流式輸入推理飆升46%!國產開源加速「全家桶」,打破多輪對話長度限制
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...