Transformer要變Kansformer?用了幾十年的MLP迎來(lái)挑戰(zhàn)者KAN
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Transformer要變Kansformer?用了幾十年的MLP迎來(lái)挑戰(zhàn)者KAN
關(guān)鍵字:函數(shù),報(bào)告,表示,定理,作者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):15115字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部MLP(多層感知器)用了幾十年了,真的沒(méi)有別的選擇了嗎?多層感知器(MLP),也被稱(chēng)為全連接前饋神經(jīng)網(wǎng)絡(luò),是當(dāng)今深度學(xué)習(xí)模型的基礎(chǔ)構(gòu)建塊。
MLP 的重要性無(wú)論怎樣強(qiáng)調(diào)都不為過(guò),因?yàn)樗鼈兪菣C(jī)器學(xué)習(xí)中用于逼近非線性函數(shù)的默認(rèn)方法。
然而,MLP 是否就是我們能夠構(gòu)建的最佳非線性回歸器呢?盡管 MLP 被廣泛使用,但它們存在明顯的缺陷。例如,在 Transformer 模型中,MLP 幾乎消耗了所有非嵌入式參數(shù),并且通常在沒(méi)有后處理分析工具的情況下,相對(duì)于注意力層來(lái)說(shuō),它們的可解釋性較差。
所以,是否有一種 MLP 的替代選擇?
今天,KAN 出現(xiàn)了。這是一個(gè)靈感來(lái)源于 Kolmogorov-Arnold 表示定理的網(wǎng)絡(luò)。
鏈接:https://arxiv.org/pdf/2404.19756
Github:https://github.com/KindXiaoming/pykan
該研究一經(jīng)發(fā)布,就在國(guó)外社交平臺(tái)引起了廣泛的關(guān)注與討論。
有網(wǎng)友稱(chēng),Kolmogorov 早在 1957 年就發(fā)現(xiàn)了多層神經(jīng)網(wǎng)絡(luò),比 Rumerhart、Hinton 和 Willi
原文鏈接:Transformer要變Kansformer?用了幾十年的MLP迎來(lái)挑戰(zhàn)者KAN
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)