Token化一切，甚至網(wǎng)絡(luò)！北大&谷歌&馬普所提出TokenFormer，Transformer從來沒有這么靈活過！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Token化一切，甚至網(wǎng)絡(luò)！北大&谷歌&馬普所提出TokenFormer，Transformer從來沒有這么靈活過！
關(guān)鍵字：模型,靈活性,增量,參數(shù),團(tuán)隊(duì)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本論文第一作者是汪海洋，北京大學(xué)20級(jí)博士生，目前主要關(guān)注是通用模型的架構(gòu)設(shè)計(jì)和學(xué)習(xí)算法。指導(dǎo)教授主要包括王立威，北京大學(xué)智能學(xué)院教授；Bernt Schiele，德國(guó)馬普計(jì)算所教授；Federico Tombari 谷歌人工智能科學(xué)家等。
新一代通用靈活的網(wǎng)絡(luò)結(jié)構(gòu) TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 來啦！
TokenFormer不僅像原始 Transformer 一樣 Token 化了 input data，并且 Token 化了網(wǎng)絡(luò)參數(shù)，將 attention 機(jī)制拓展到 Token 和 parameters 的交互中，最大化了 Trans

原文鏈接：Token化一切，甚至網(wǎng)絡(luò)！北大&谷歌&馬普所提出TokenFormer，Transformer從來沒有這么靈活過！