6700萬(wàn)參數(shù)比肩萬(wàn)億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:6700萬(wàn)參數(shù)比肩萬(wàn)億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
關(guān)鍵字:模型,因果,公理,節(jié)點(diǎn),數(shù)據(jù)
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 喬楊
【新智元導(dǎo)讀】來(lái)自微軟、MIT等機(jī)構(gòu)的學(xué)者提出了一種創(chuàng)新的訓(xùn)練范式,攻破了大模型的推理缺陷。他們通過(guò)因果模型構(gòu)建數(shù)據(jù)集,直接教模型學(xué)習(xí)公理,結(jié)果只有67M參數(shù)的微型Transformer竟能媲美GPT-4的推理能力。「因果推理」絕對(duì)是當(dāng)前GenAI熱潮下的小眾領(lǐng)域,但是它有一個(gè)大佬級(jí)的堅(jiān)定支持者——Yann LeCun。
他在上的日常操作之一,就是炮轟Sora等生成模型,并為自己堅(jiān)信的因果推理領(lǐng)域搖旗吶喊。
甚至,早在2019年VentureBeat的采訪中,他就表達(dá)過(guò)這一觀點(diǎn):我們需要在深度學(xué)習(xí)模型中引入的因果關(guān)系,才能增強(qiáng)泛化能力,減少訓(xùn)練數(shù)據(jù)使用。
對(duì)于當(dāng)前最流行的模型架構(gòu)Transformer,我們能教它因果推理嗎?
最近,來(lái)自微軟MIT等機(jī)構(gòu)的研究人員提出了一種訓(xùn)練大模型新范式——公理框架(Axiomatic Framework)。
論文中,作者從頭開(kāi)始訓(xùn)練了6700萬(wàn)參數(shù)的模型,僅使用了簡(jiǎn)單的因果鏈作為訓(xùn)練數(shù)據(jù)。
令人驚訝的是,在推斷復(fù)雜圖表中的因果關(guān)系時(shí),67M模型的表現(xiàn)超越了十億級(jí)參數(shù)LLM,甚至可以與GPT-4相媲美。
論文地址:
原文鏈接:6700萬(wàn)參數(shù)比肩萬(wàn)億巨獸GPT-4!微軟MIT等聯(lián)手Transformer推理密碼
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。