Token化一切,甚至網(wǎng)絡(luò)!北大&谷歌&馬普所提出TokenFormer,Transformer從來沒有這么靈活過!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Token化一切,甚至網(wǎng)絡(luò)!北大&谷歌&馬普所提出TokenFormer,Transformer從來沒有這么靈活過!
關(guān)鍵字:模型,靈活性,增量,參數(shù),團(tuán)隊(duì)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文第一作者是汪海洋,北京大學(xué)20級(jí)博士生,目前主要關(guān)注是通用模型的架構(gòu)設(shè)計(jì)和學(xué)習(xí)算法。指導(dǎo)教授主要包括王立威,北京大學(xué)智能學(xué)院教授;Bernt Schiele,德國(guó)馬普計(jì)算所教授;Federico Tombari 谷歌人工智能科學(xué)家等。
新一代通用靈活的網(wǎng)絡(luò)結(jié)構(gòu) TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 來啦!
TokenFormer不僅像原始 Transformer 一樣 Token 化了 input data,并且 Token 化了網(wǎng)絡(luò)參數(shù),將 attention 機(jī)制拓展到 Token 和 parameters 的交互中,最大化了 Trans
原文鏈接:Token化一切,甚至網(wǎng)絡(luò)!北大&谷歌&馬普所提出TokenFormer,Transformer從來沒有這么靈活過!
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: