next-token被淘汰!Meta實(shí)測(cè)「多token」訓(xùn)練方法,推理提速3倍,性能大漲10%+
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:next-token被淘汰!Meta實(shí)測(cè)「多token」訓(xùn)練方法,推理提速3倍,性能大漲10%+
關(guān)鍵字:模型,研究人員,任務(wù),性能,方法
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】研究人員提出了一種新的大型語(yǔ)言模型訓(xùn)練方法,通過(guò)一次性預(yù)測(cè)多個(gè)未來(lái)tokens來(lái)提高樣本效率和模型性能,在代碼和自然語(yǔ)言生成任務(wù)上均表現(xiàn)出顯著優(yōu)勢(shì),且不會(huì)增加訓(xùn)練時(shí)間,推理速度還能提升至三倍。當(dāng)前,大型語(yǔ)言模型,例如GPT和Llama,主要是根據(jù)「前文的單詞序列」對(duì)「下一個(gè)token」進(jìn)行預(yù)測(cè)的方式來(lái)訓(xùn)練。
但你有沒(méi)有想過(guò)一個(gè)問(wèn)題,為什么不對(duì)后文的tokens同時(shí)進(jìn)行預(yù)測(cè)呢?
最近,Meta、巴黎高科路橋大學(xué)、巴黎薩克雷大學(xué)的研究人員就聯(lián)合提出了一種新的訓(xùn)練方法,即一次性預(yù)測(cè)多個(gè)未來(lái)tokens,可以提高模型的樣本效率。論文鏈接:https://arxiv.org/pdf/2404.19737
具體來(lái)說(shuō),在訓(xùn)練語(yǔ)料庫(kù)的每一個(gè)位置,要求模型使用n個(gè)的輸出頭網(wǎng)絡(luò)來(lái)預(yù)測(cè)緊隨其后的n個(gè)token,其中所有輸出頭都基于同一個(gè)模型主干。
研究人員將多token預(yù)測(cè)視作是一種輔助訓(xùn)練任務(wù),實(shí)驗(yàn)發(fā)現(xiàn)該方法不僅能夠提升模型在各種下游任務(wù)上的表現(xiàn),而且不會(huì)增加訓(xùn)練時(shí)間,對(duì)代碼生成和自然語(yǔ)言生成任務(wù)都是有益的。
隨著模型尺寸的增大,該方法的優(yōu)勢(shì)變得更加明顯,尤其是
原文鏈接:next-token被淘汰!Meta實(shí)測(cè)「多token」訓(xùn)練方法,推理提速3倍,性能大漲10%+
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。