楊植麟跟梁文鋒,論文撞車!
MoBA在千萬tokens量級實(shí)現(xiàn)16倍的加速。

原標(biāo)題:楊植麟跟梁文鋒,論文撞車!
文章來源:智東西
內(nèi)容字?jǐn)?shù):9171字
國產(chǎn)大模型開源競賽:月之暗面MoBA框架挑戰(zhàn)長文本處理瓶頸
本文總結(jié)了月之暗面團(tuán)隊(duì)最新發(fā)布的MoBA稀疏注意力框架論文,以及同期發(fā)布的新模型Kimi Latest 的主要內(nèi)容。 文章重點(diǎn)關(guān)注MoBA框架在長文本處理方面的效率提升和性能表現(xiàn),以及與DeepSeek的NSA框架的對比。
1. 長文本處理的挑戰(zhàn)與MoBA的解決方案
文章指出,處理長文本是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵,但傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度呈二次方增長,限制了大模型處理長序列的能力。現(xiàn)有稀疏注意力框架存在可擴(kuò)展性、成本效益和泛化能力等問題。月之暗面提出的MoBA框架旨在解決這些問題,它通過動態(tài)選擇歷史片段(塊)來提高Transformer模型處理長序列的效率,在保留原始Transformer框架的前提下,實(shí)現(xiàn)高效的推理和訓(xùn)練加速,并能在全注意力和稀疏注意力模式之間無縫切換。
2. MoBA框架的核心設(shè)計(jì)
MoBA框架的核心創(chuàng)新在于其塊劃分和選擇策略。它將長序列分割成多個(gè)固定大小的塊,并通過門控機(jī)制動態(tài)選擇與每個(gè)查詢token最相關(guān)的塊,從而實(shí)現(xiàn)稀疏注意力。MoBA借鑒了MoE中細(xì)粒度劃分的思想,并結(jié)合FlashAttention優(yōu)化計(jì)算流程,實(shí)現(xiàn)了高效的計(jì)算。其主要步驟包括塊分配、順序調(diào)整、塊級注意力計(jì)算、輸出重組和在線Softmax組合。
3. MoBA框架的性能表現(xiàn)
實(shí)驗(yàn)結(jié)果表明,MoBA框架在處理百萬級token時(shí),速度比全注意力快6.5倍,在千萬級token時(shí),速度比標(biāo)準(zhǔn)Flash Attention快16倍。在多個(gè)長上下文基準(zhǔn)測試中,MoBA的性能與全注意力模型相當(dāng),甚至在部分測試中表現(xiàn)更好。MoBA與全注意力模型的驗(yàn)證損失曲線非常相似,表明其擴(kuò)展性能與全注意力相當(dāng)。混合訓(xùn)練策略也進(jìn)一步提升了MoBA的性能。
4. Kimi Latest模型發(fā)布
月之暗面同時(shí)發(fā)布了新模型Kimi Latest,該模型對標(biāo)Kimi智能助手當(dāng)前使用的模型,并隨產(chǎn)品更新同步升級。它支持自動上下文緩存,緩存命中的Tokens費(fèi)用僅為1元/百萬tokens,并支持圖片理解等功能。Kimi Latest旨在彌合Kimi智能助手和開放平臺之間模型的差異,為開發(fā)者提供更穩(wěn)定和一致的模型體驗(yàn)。
5. 國產(chǎn)開源AI競賽的激烈競爭
文章最后指出,國內(nèi)大模型賽道正掀起一場開源軍備競賽,月之暗面雖然發(fā)布了MoBA框架和Kimi Latest模型,但仍面臨來自DeepSeek等其他廠商的激烈競爭。
聯(lián)系作者
文章來源:智東西
作者微信:
作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。

粵公網(wǎng)安備 44011502001135號