首次證實(shí)白盒Transformer可擴(kuò)展性!馬毅教授CRATE-α:鯨吞14億數(shù)據(jù),性能穩(wěn)步提升
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:首次證實(shí)白盒Transformer可擴(kuò)展性!馬毅教授CRATE-α:鯨吞14億數(shù)據(jù),性能穩(wěn)步提升
關(guān)鍵字:模型,性能,數(shù)據(jù),解釋性,準(zhǔn)確率
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】CRATE-α是一種新型Transformer架構(gòu)變體,通過(guò)設(shè)計(jì)改進(jìn)提升了模型的可擴(kuò)展性、性能和可解釋性,CRATE-α-Base在ImageNet分類任務(wù)上的性能顯著超過(guò)了之前最好的CRATE-B模型,其性能會(huì)隨著模型和數(shù)據(jù)集規(guī)模擴(kuò)大而繼續(xù)提升。在過(guò)去的幾年里,Transformer架構(gòu)在自然語(yǔ)言處理(NLP)、圖像處理和視覺(jué)計(jì)算領(lǐng)域的深度表征學(xué)習(xí)中取得了顯著的成就,幾乎成為了AI領(lǐng)域的主導(dǎo)技術(shù)。
然而,雖然Transformer架構(gòu)及其眾多變體在實(shí)踐中取得了巨大成功,但其設(shè)計(jì)大多是基于經(jīng)驗(yàn)的,并沒(méi)有嚴(yán)格的數(shù)學(xué)解釋,也在一定程度上限制了研究人員的思路,無(wú)法開(kāi)發(fā)出更高效、更具可解釋性的Transformer新變體。
為了填補(bǔ)這一空白,馬毅教授團(tuán)隊(duì)曾發(fā)布過(guò)白盒Transformer模型CRATE,其架構(gòu)的每一層都是通過(guò)數(shù)學(xué)推導(dǎo)得到的,可以完全解釋為展開(kāi)的梯度下降迭代;此外,CRATE學(xué)習(xí)到的模型和特征在語(yǔ)義上也比傳統(tǒng)的Transformer模型具有更好的可解釋性,例如,即使模型僅在分類任務(wù)上進(jìn)行訓(xùn)練,可視化圖像的特征也能自然地形成該圖像的零樣本分割
原文鏈接:首次證實(shí)白盒Transformer可擴(kuò)展性!馬毅教授CRATE-α:鯨吞14億數(shù)據(jù),性能穩(wěn)步提升
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。