AIGC動態歡迎閱讀
原標題:預測token速度翻番!Transformer新解碼算法火了,來自小羊駝團隊|代碼已開源
文章來源:量子位
內容字數:4604字
內容摘要:豐色 發自 凹非寺量子位 | 公眾號QbitAI小羊駝團隊的新研究火了。他們開發了一種新的解碼算法,可以讓模型預測100個token數的速度提高1.5-2.3倍,進而加速LLM推理。比如這是同一個模型(LLaMa-2-Chat 7B)面對同一個用戶提問(蘇格拉底采用了哪些方法來挑戰他那個時代的主流思想?)時輸出回答的速度:左邊為原算法,耗時18.12s,每秒約35個token;右邊為該算法,耗時10.4s,每秒約60個token,明顯快了一大截。簡單來說,這是一種并行解碼算法,名叫“Lookahead Decoding”(前向解碼)。它主要利用雅可比(Jacobi)迭代法首次打破自回歸解碼中的順序依賴性(眾所周知,當下大模型基本都是基于自回歸的Transformer)。由此無需草稿模型(draft model)或數據存儲,就可以減少解碼步驟,加速LLM推理。目前,作者已給出了與huggin…
原文鏈接:點此閱讀原文:預測token速度翻番!Transformer新解碼算法火了,來自小羊駝團隊|代碼已開源
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...