Hyena成下一代Transformer?StripedHyena-7B開(kāi)源:最高128k輸入,訓(xùn)練速度提升50%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Hyena成下一代Transformer?StripedHyena-7B開(kāi)源:最高128k輸入,訓(xùn)練速度提升50%
關(guān)鍵字:注意力,卷積,算子,序列,研究人員
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):8804字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】Hyena處理長(zhǎng)序列輸入比FlashAttention速度高100倍!最新發(fā)布的StripedHyena模型可能成下一代AI架構(gòu)的新標(biāo)準(zhǔn)?最近幾年發(fā)布的AI模型,如語(yǔ)言、視覺(jué)、音頻、生物等各種領(lǐng)域的大模型都離不開(kāi)Transformer架構(gòu),但其核心模塊「注意力機(jī)制」的計(jì)算復(fù)雜度與「輸入序列長(zhǎng)度」呈二次方增長(zhǎng)趨勢(shì),這一特性嚴(yán)重限制了Transformer在長(zhǎng)序列下的應(yīng)用,例如無(wú)法一次性處理一整本書(shū),或是處理千兆像素級(jí)別的圖像。
即便強(qiáng)如GPT-4也難以擺脫這種缺陷。
最近,Together Research開(kāi)源了一個(gè)全新的語(yǔ)言模型StripedHyena,采用了針對(duì)「長(zhǎng)上下文」的新架構(gòu),可以處理高達(dá)128k個(gè)token的長(zhǎng)上下文,并且改進(jìn)了Transformer架構(gòu)在訓(xùn)練和推理上的性能,為目前的主流架構(gòu)提供了一種可選方案。開(kāi)源鏈接:https://github.com/togethercomputer/stripedhyena
StripedHyena也是「首個(gè)」在短上下文和長(zhǎng)上下文評(píng)估中,以相同模型尺寸,實(shí)現(xiàn)了與最佳開(kāi)源Transformer模型
原文鏈接:Hyena成下一代Transformer?StripedHyena-7B開(kāi)源:最高128k輸入,訓(xùn)練速度提升50%
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。