Miras

AI工具2周前更新 AI工具集

7 0 0

Miras – 谷歌推出的深度學習架構設計通用框架

Miras

Miras是谷歌推出的一款用于深度學習架構設計的通用框架，特別適用于序列建模任務。它基于關聯記憶和注意力偏差的概念，重新定義了Transformer和現代線性RNN等模型，賦予其內部優化目標的關聯記憶模塊。

XX是什么

Miras是谷歌開發的一種通用框架，專門用于深度學習架構設計，尤其在序列建模方面表現出色。Miras依托于關聯記憶和注意力偏差的原理，將傳統模型如Transformer和線性RNN重新構建為具備內在優化目標的關聯記憶模塊。通過四個關鍵選擇，Miras能夠構建出高效的模型，包括關聯記憶架構、注意力偏差目標、保持門以及記憶學習算法。Miras能夠生成多種新型序列模型，例如Moneta、Yaad和Memora，這些模型在語言建模、常識推理等任務中表現卓越，超越了現行的Transformer和線性RNN模型。

主要功能

統一架構：將多種現有序列模型（如Transformer、RetNet、Mamba等）融入一個統一框架。
優化記憶管理：通過引入注意力偏差和保持門的概念，Miras能夠有效平衡新信息的學習與舊信息的保留，從而優化記憶管理能力。
設計創新模型：支持構建具有不同注意力偏差和保存機制的新型序列模型，如Moneta、Yaad和Memora。
提升性能：在處理長序列任務時，顯著提升模型性能，同時保持快速的并行訓練能力。

技術原理

關聯記憶：Miras采用輸入（鍵）與輸出（值）之間的映射機制，視序列模型為關聯記憶模塊，通過學習輸入與輸出的映射關系來存儲和檢索信息。關聯記憶是Miras的核心，決定了模型如何存儲和利用序列數據中的信息。
注意力偏差：注意力偏差作為關聯記憶的內部優化目標，用于評估模型如何優先關注某些或。它影響模型學習輸入（鍵和值）之間映射關系的方式。通過選擇不同的注意力偏差目標（如?2回歸、?1回歸、Huber損失等），可以調整模型對數據的敏感性與魯棒性。
保持門：作為一種正則化機制，保持門控制模型在學習新信息時如何保留舊信息。通過引入保留正則化項（如?2正則化、KL散度等），實現學習與保留的良好平衡，防止模型在長序列任務中對舊信息的過度遺忘。
記憶學習算法：這些算法用于優化關聯記憶的目標函數，常見的包括梯度下降和動量梯度下降等。選擇適宜的優化算法可以提升模型的訓練效率和收斂速度。