<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        AIGC動態(tài)6個月前發(fā)布 新智元
        511 0 0

        LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源
        關(guān)鍵字:神經(jīng)元,模型,算術(shù),啟發(fā)式,算法
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):0字

        內(nèi)容摘要:


        新智元報道編輯:peter東 喬楊
        【新智元導(dǎo)讀】大模型在數(shù)學(xué)問題上的表現(xiàn)不佳,原因在于采取啟發(fā)式算法進行數(shù)算的,通過定位到多層感知機(MLP)中的單個神經(jīng)元,可以對進行數(shù)算的具體過程進行解釋。由于缺少對運行邏輯的解釋,大模型一向被人稱為「黑箱」,但近來的不少研究已能夠在單個神經(jīng)元層面上解釋大模型的運行機制。
        例如Claude在2023年發(fā)表的一項研究,將大模型中大約500個神經(jīng)元分解成約4000個可解釋特征。
        而10月28日的一項研究,以算術(shù)推理作為典型任務(wù),借鑒類似的研究方法,確定了大模型中的一個模型子集,能解釋模型大部分的基本算術(shù)邏輯行為。
        論文地址:https://arxiv.org/abs/2410.21272
        該研究首先定位了Llama3-8B/70B, Pythia-6.9B及GPT-J四個模型中負(fù)責(zé)算術(shù)計算的模型子集。
        如圖1所示,少數(shù)注意力頭對大模型面對算術(shù)問題的正確率有顯著影響。第一個 MLP(多層感知機) 明顯影響操作數(shù)和操作符位置,而中間層和后期層的 MLP 將token信息投影到最后位置,提升正確答案的出現(xiàn)概率。
        圖1:Llama3-8B中發(fā)現(xiàn)算術(shù)相


        原文鏈接:LLM為何頻頻翻車算術(shù)題?最新研究追蹤單個神經(jīng)元,「大腦短路」才是根源

        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 毛片免费全部免费观看| 九九精品成人免费国产片| 四虎最新永久免费视频| 亚洲ⅴ国产v天堂a无码二区| 中文字幕免费视频精品一| 在线观看亚洲av每日更新| 免费看大黄高清网站视频在线| 亚洲日本在线播放| 中国在线观看免费国语版| 久久国产亚洲精品| 日本免费的一级v一片| 日韩亚洲人成网站| 97在线视频免费| 亚洲人成在线播放| 永久免费视频v片www| 特a级免费高清黄色片| 国产成人精品曰本亚洲79ren| 韩国免费A级毛片久久| 亚洲国产综合专区在线电影| 一本一道dvd在线观看免费视频| 久久精品国产亚洲AV不卡| 玖玖在线免费视频| 亚洲成人一级电影| 在线观看免费亚洲| 中国videos性高清免费| 亚洲福利一区二区| 免费在线观看a级毛片| 久草免费福利视频| 亚洲精品无码专区在线| AV在线播放日韩亚洲欧| 中文字幕免费在线观看| 亚洲国产欧洲综合997久久| 在线播放亚洲第一字幕| 男女免费观看在线爽爽爽视频 | 日韩精品极品视频在线观看免费 | 日韩亚洲人成在线综合| 国产国拍亚洲精品mv在线观看 | 亚洲欧美黑人猛交群| 国产亚洲精品激情都市| 18勿入网站免费永久| 老妇激情毛片免费|