Hyena成下一代Transformer？StripedHyena-7B開源：最高128k輸入，訓練速度提升50%

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：Hyena成下一代Transformer？StripedHyena-7B開源：最高128k輸入，訓練速度提升50%
關鍵字：注意力,卷積,算子,序列,研究人員
文章來源：新智元
內容字數：8804字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】Hyena處理長序列輸入比FlashAttention速度高100倍！最新發布的StripedHyena模型可能成下一代AI架構的新標準？最近幾年發布的AI模型，如語言、視覺、音頻、生物等各種領域的大模型都離不開Transformer架構，但其核心模塊「注意力機制」的計算復雜度與「輸入序列長度」呈二次方增長趨勢，這一特性嚴重限制了Transformer在長序列下的應用，例如無法一次性處理一整本書，或是處理千兆像素級別的圖像。
即便強如GPT-4也難以擺脫這種缺陷。
最近，Together Research開源了一個全新的語言模型StripedHyena，采用了針對「長上下文」的新架構，可以處理高達128k個token的長上下文，并且改進了Transformer架構在訓練和推理上的性能，為目前的主流架構提供了一種可選方案。開源鏈接：https://github.com/togethercomputer/stripedhyena
StripedHyena也是「首個」在短上下文和長上下文評估中，以相同模型尺寸，實現了與最佳開源Transformer模型

原文鏈接：Hyena成下一代Transformer？StripedHyena-7B開源：最高128k輸入，訓練速度提升50%