MiniMax 擁抱 Agent 時代
原標題:MiniMax震撼開源,突破傳統Transformer架構,4560億參數,支持400萬長上下文
文章來源:機器之心
內容字數:7721字
MiniMax 開源超長上下文窗口模型,助力 2025 AI Agent 時代
新年伊始,OpenAI、Meta 和英偉達 CEO 均預測 2025 年將是 AI Agent 的元年。MiniMax 迅速行動,開源了基礎語言模型 MiniMax-Text-01 和視覺多模態模型 MiniMax-VL-01,其核心創新在于首次大規模實現新的線性注意力機制,將上下文窗口擴展至 400 萬 token,是其他模型的 20-32 倍,為 Agent 應用爆發奠定基礎。
1. MiniMax 模型的創新之處
MiniMax-Text-01 基于 Transformer 架構,其核心創新在于 Lightning Attention 線性注意力機制。該機制通過右邊積核技巧,將計算復雜度從二次降到線性,顯著提升效率。此外,MiniMax 還采用了 Hybrid-lightning 架構,結合 softmax 注意力,平衡效率和性能。 模型還使用了改進的混合專家 (MoE) 架構,并優化了通信技術,解決大規模 MoE 模型的路由崩潰問題。在訓練方面,MiniMax 開發了數據打包技術,減少計算浪費,并針對 Lightning Attention 進行了多項優化。
2. MiniMax-Text-01 的性能表現
MiniMax-Text-01 擁有 32 個專家,總參數量達 4560 億。在推理時,上下文長度可達 400 萬 token。在 HumanEval、GPQA Diamond、MMLU、IFEval 和 Arena-Hard 等基準測試中,其性能與 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及其他 SOTA 開源模型相當甚至超越。尤其在長文本理解任務上,MiniMax-Text-01 的優勢顯著,在 Ruler 和 LongBench v2 基準測試中,當上下文長度超過 128k 時,其表現遠超其他模型。
3. MiniMax-VL-01:視覺語言模型
MiniMax-VL-01 在 MiniMax-Text-01 的基礎上,整合了視覺編碼器和圖像適配器,實現了多模態能力。其架構遵循 ViT-MLP-LLM 范式,并使用專有數據集和多階段訓練策略進行訓練。在各個基準測試中,MiniMax-VL-01 的表現與其他 SOTA 模型相當,甚至在某些指標上取得最佳成績。
4. 超長上下文窗口的意義
MiniMax 認為,足夠大的上下文窗口對于 AI Agent 至關重要,可以更充分地同步上下文信息,提升用戶體驗。400 萬 token 的上下文窗口并非終點,MiniMax 正在研究更高效的架構,以實現無限上下文窗口。 多模態能力的加入,也預示著 Agent 將逐步進入物理世界。
MiniMax 的開源模型為 AI Agent 的發展提供了強大的技術支持,也為 2025 年 AI Agent 時代的到來鋪平了道路。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺