MiniMax-01技術(shù)報(bào)告解讀以及與DeepSeek-V3對(duì)比
本文介紹了 MiniMax-01 系列模型。

原標(biāo)題:MiniMax-01技術(shù)報(bào)告解讀以及與DeepSeek-V3對(duì)比
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3851字
MiniMax-01:突破長(zhǎng)上下文處理瓶頸的大模型
本文介紹了字節(jié)跳動(dòng)研發(fā)的MiniMax-01系列模型,包括文本模型MiniMax-Text-01和多模態(tài)模型MiniMax-VL-01。該系列模型旨在克服現(xiàn)有大語(yǔ)言模型(LLM)和視覺(jué)語(yǔ)言模型(VLM)在長(zhǎng)上下文處理方面的局限性,并取得了顯著進(jìn)展。
1. 核心創(chuàng)新:線性注意力機(jī)制與高效擴(kuò)展
MiniMax-01的核心創(chuàng)新在于采用線性注意力機(jī)制,而非傳統(tǒng)的softmax注意力機(jī)制。線性注意力機(jī)制具有線性時(shí)間復(fù)雜度,更適合處理長(zhǎng)序列。具體而言,MiniMax-01使用了閃電注意力(Lightning Attention),它通過(guò)將注意力計(jì)算分為塊內(nèi)和塊間兩部分,分別使用左乘積和右乘積進(jìn)行計(jì)算,避免了緩慢的累積和操作,從而實(shí)現(xiàn)了理論上的線性復(fù)雜度,并顯著提升了長(zhǎng)序列處理速度。
為了彌補(bǔ)線性注意力機(jī)制在檢索能力上的不足,MiniMax-01還探索了混合架構(gòu)(Hybrid-Lightning),即每隔8層用softmax注意力層替換閃電注意力層。實(shí)驗(yàn)結(jié)果表明,混合架構(gòu)在檢索和推理任務(wù)上均優(yōu)于純softmax注意力模型。
2. 混合專家(MoE)架構(gòu)的優(yōu)化與高效訓(xùn)練
MiniMax-01采用了擁有32個(gè)專家和4560億參數(shù)的MoE架構(gòu)。為了解決MoE訓(xùn)練中的路由崩潰問(wèn)題,MiniMax-01采用全局路由策略,實(shí)現(xiàn)負(fù)載均衡,減少token丟棄率。此外,MiniMax-01還對(duì)專家權(quán)重和數(shù)據(jù)并行性進(jìn)行了精細(xì)劃分,設(shè)計(jì)了專家張量并行(ETP)和專家數(shù)據(jù)并行(EDP)進(jìn)程組,以實(shí)現(xiàn)存儲(chǔ)和計(jì)算強(qiáng)度的最佳平衡。
MiniMax-01針對(duì)閃電注意力和MoE架構(gòu)重新設(shè)計(jì)了訓(xùn)練框架,采用專家并行(EP)和專家張量并行(ETP)來(lái)最小化GPU間通信開(kāi)銷。為了支持無(wú)限擴(kuò)展的上下文窗口,MiniMax-01設(shè)計(jì)了變長(zhǎng)環(huán)注意力(Varlen Ring Attention)和改進(jìn)的線性注意力序列并行(LASP)算法。此外,還實(shí)現(xiàn)了針對(duì)閃電注意力推理的CUDA內(nèi)核優(yōu)化,模型浮點(diǎn)運(yùn)算利用率(MFU)超過(guò)75%。
3. 高效的推理框架
MiniMax-01的推理框架優(yōu)化策略包括:批量?jī)?nèi)核融合,減少中間結(jié)果存儲(chǔ);分離的預(yù)填充和解碼執(zhí)行,提高計(jì)算效率;多級(jí)填充,最小化填充開(kāi)銷;以及利用NVIDIA cuBLAS庫(kù)和張量?jī)?nèi)存加速器(TMA)的異步操作,提高計(jì)算效率。
4. 長(zhǎng)上下文訓(xùn)練策略
MiniMax-01采用數(shù)據(jù)打包技術(shù)和三階段訓(xùn)練方法,逐步將上下文窗口擴(kuò)展到100萬(wàn)token,并在推理階段外推到400萬(wàn)token。訓(xùn)練過(guò)程包括短上下文訓(xùn)練、擴(kuò)展上下文訓(xùn)練、短上下文偏好優(yōu)化、長(zhǎng)上下文偏好優(yōu)化以及在線強(qiáng)化學(xué)習(xí)等階段。
5. 與DeepSeek-V3的對(duì)比
MiniMax-01和DeepSeek-V3都是致力于突破LLM性能瓶頸的模型。MiniMax-01更注重長(zhǎng)上下文處理能力,而DeepSeek-V3在數(shù)學(xué)和編碼任務(wù)上表現(xiàn)出色,并在長(zhǎng)上下文理解方面也展現(xiàn)出強(qiáng)大的能力。兩者都采用了MoE架構(gòu)和先進(jìn)的訓(xùn)練策略。
6. 總結(jié)
MiniMax-01系列模型通過(guò)線性注意力機(jī)制、混合架構(gòu)、優(yōu)化的MoE架構(gòu)以及高效的訓(xùn)練和推理框架,在長(zhǎng)上下文處理能力方面取得了顯著突破,為大語(yǔ)言模型的發(fā)展提供了新的方向。
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,專注于生成式人工智能。

粵公網(wǎng)安備 44011502001135號(hào)