AIGC動態歡迎閱讀
原標題:神經網絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內容相同
關鍵字:神經網絡,表征,模型,據點,架構
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊
【新智元導讀】深度神經網絡有多種規模和架構,大家普遍認為這會影響到模型學習到的抽象表示。然而,UCL兩位學者發表在ICML 2024上第一篇論文指出,如果模型的架構足夠靈活,某些網絡行為在不同架構間是廣泛存在的。自從AI跨入大模型時代以來,Scaling Law幾乎成為了一個。
論文地址:https://arxiv.org/abs/2001.08361
OpenAI的研究人員在2020年的這篇論文中提出,模型的性能與三方面的指標呈冪律關系:參數量N、數據集規模D以及訓練算力C。
除了這三方面外,在合理范圍內,超參數的選擇和模型的寬度、深度等因素對性能的影響很小。
而且,這種冪律關系的存在沒有對模型架構做出任何規定。換言之,我們可以認為Scaling Law幾乎適用于任何模型架構。
此外2021年發表的一篇神經科學領域的論文似乎也從另一個角度觸碰到了這個現象。
論文地址:https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.6258
原文鏈接:神經網絡架構「殊途同歸」?ICML 2024論文:模型不同,但學習內容相同
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...