LLM生成延遲降低50%!DeepSpeed團(tuán)隊(duì)發(fā)布FastGen:動(dòng)態(tài)SplitFuse技術(shù),提升2.3倍有效吞吐量

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LLM生成延遲降低50%!DeepSpeed團(tuán)隊(duì)發(fā)布FastGen:動(dòng)態(tài)SplitFuse技術(shù),提升2.3倍有效吞吐量
關(guān)鍵字:吞吐量,提示,模型,系統(tǒng),知乎
文章來源:新智元
內(nèi)容字?jǐn)?shù):23009字
內(nèi)容摘要:新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】DeepSpeed-FastGen結(jié)合MII和DeepSpeed-Inference實(shí)現(xiàn)LLM高吞吐量文本生成。GPT-4和LLaMA這樣的大型語言模型(LLMs)已在各個(gè)層次上成為了集成AI 的主流服務(wù)應(yīng)用。從常規(guī)模型到文檔摘要,從自動(dòng)駕駛到各個(gè)軟件中的Copilot功能,這些模型的部署和服務(wù)需求正在迅速增加。像DeepSpeed、PyTorch和其他幾個(gè)框架可以在LLM訓(xùn)練期間實(shí)現(xiàn)良好的硬件利用率,但它們?cè)谂c用戶互動(dòng)及處理開放式文本生成等任務(wù)時(shí),受限于這些操作的計(jì)算密集度相對(duì)較低,現(xiàn)有系統(tǒng)往往在推理吞吐量上遇到瓶頸。為了解決這一問題,使用類似vLLM這樣由PagedAttention驅(qū)動(dòng)的框架或是Orca系統(tǒng)可以顯著提高LLM推理的性能。然而,這些系統(tǒng)在面對(duì)長提示的工作負(fù)載時(shí),依舊難以提供良好的服務(wù)質(zhì)量。隨著越來越多的模型(例如MPT-Story…
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)