Bengio等人新作:注意力可被視為RNN,新模型媲美Transformer,但超級(jí)省內(nèi)存
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Bengio等人新作:注意力可被視為RNN,新模型媲美Transformer,但超級(jí)省內(nèi)存
關(guān)鍵字:注意力,高效,序列,時(shí)間,作者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10182字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部既能像 Transformer 一樣并行訓(xùn)練,推理時(shí)內(nèi)存需求又不隨 token 數(shù)線性遞增,長(zhǎng)上下文又有新思路了?序列建模的進(jìn)展具有極大的影響力,因?yàn)樗鼈冊(cè)趶V泛的應(yīng)用中發(fā)揮著重要作用,包括強(qiáng)化學(xué)習(xí)(例如,機(jī)器人和自動(dòng)駕駛)、時(shí)間序列分類(例如,金融欺詐檢測(cè)和醫(yī)學(xué)診斷)等。
在過(guò)去的幾年里,Transformer 的出現(xiàn)標(biāo)志著序列建模中的一個(gè)重大突破,這主要得益于 Transformer 提供了一種能夠利用 GPU 并行處理的高性能架構(gòu)。
然而,Transformer 在推理時(shí)計(jì)算開(kāi)銷很大,主要在于內(nèi)存和計(jì)算需求呈二次擴(kuò)展,從而限制了其在低資源環(huán)境中的應(yīng)用(例如,移動(dòng)和嵌入式設(shè)備)。盡管可以采用 KV 緩存等技術(shù)提高推理效率,但 Transformer 對(duì)于低資源領(lǐng)域來(lái)說(shuō)仍然非常昂貴,原因在于:(1)隨 token 數(shù)量線性增加的內(nèi)存,以及(2)緩存所有先前的 token 到模型中。在具有長(zhǎng)上下文(即大量 token)的環(huán)境中,這一問(wèn)題對(duì) Transformer 推理的影響更大。
為了解決這個(gè)問(wèn)題,加拿大皇家銀行 AI 研究所 Borealis AI、蒙特利爾
原文鏈接:Bengio等人新作:注意力可被視為RNN,新模型媲美Transformer,但超級(jí)省內(nèi)存
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)