今日Arxiv最熱NLP大模型論文：清華大學讓大語言模型自動并行自回歸解碼，速度提升高達4倍！

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日Arxiv最熱NLP大模型論文：清華大學讓大語言模型自動并行自回歸解碼，速度提升高達4倍！
關鍵字：解讀,模型,吞吐量,序列,緩存
文章來源：夕小瑤科技說
內容字數：11566字

內容摘要：

夕小瑤科技說原創作者 | 賽博馬良
本文內容由賽博馬良「AI論文解讀達人」智能體生成，人工整理排版。
「AI論文解讀達人」可提供最熱AI論文推薦、論文解讀等功能。
傳送門：
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
引言：大型語言模型的高效部署挑戰隨著大型語言模型（LLMs）在各種人工智能應用中的廣泛應用，對于這些模型的高效部署需求日益增長。高效部署在這里指的是低延遲和高吞吐量。然而，LLMs的基礎自回歸（AR）結構給實現更高效的服務帶來了顯著挑戰。首先，自回歸解碼過程中，每一個新的詞元都是基于之前生成的所有詞元條件生成的，這種增量式解碼導致生成速度不理想，因為每一步生成都需要訪問LLM的大量參數。其次，Transformer模型在生成過程中對所有前序詞元的注意力計算也限制了服務吞吐量。在高吞吐量場景中，許多序列并行生成，生成過程變得計算密集型。同時，注意力計算的成本與序列長度線性增長，尤其對于長響應，這限制了吞吐量的進一步提高。此外，為生成的詞元緩存鍵

原文鏈接：今日Arxiv最熱NLP大模型論文：清華大學讓大語言模型自動并行自回歸解碼，速度提升高達4倍！