ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
AIGC動態(tài)歡迎閱讀
原標題:ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
關(guān)鍵字:任務(wù),本文,上下文,理論,模型
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者李宏康,美國倫斯勒理工大學電氣、計算機與系統(tǒng)工程系在讀博士生,本科畢業(yè)于中國科學技術(shù)大學。研究方向包括深度學習理論,大語言模型理論,統(tǒng)計機器學習等等。目前已在 ICLR/ICML/Neurips 等 AI 頂會發(fā)表多篇論文。
上下文學習 (in-context learning, 簡寫為 ICL) 已經(jīng)在很多 LLM 有關(guān)的應用中展現(xiàn)了強大的能力,但是對其理論的分析仍然比較有限。人們依然試圖理解為什么基于 Transformer 架構(gòu)的 LLM 可以展現(xiàn)出 ICL 的能力。
近期,一個來自美國倫斯勒理工大學和 IBM 研究院的團隊從優(yōu)化和泛化理論的角度分析了帶有非線性注意力模塊 (attention) 和多層感知機 (MLP) 的 Transforme
原文鏈接:ICML 2024 | 揭示非線形Transformer在上下文學習中學習和泛化的機制
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺