<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        “梁文鋒、楊植麟同一天文,關注大模型的未來趨勢“

        “梁文鋒、楊植麟同一天發論文,關注大模型的未來趨勢“

        原標題:“梁文鋒、楊植麟同一天文,關注大模型的未來趨勢“
        文章來源:人工智能學家
        內容字數:14427字

        兩家AI公司聚焦長文本處理:DeepSeek和月之暗面最新研究成果對比

        近日,DeepSeek和月之暗面(Moonshot AI)幾乎同時發布了各自最新的研究成果,都集中于改進Transformer架構中的注意力機制,以提升其處理長文本的能力并降低計算成本。這體現了業界對高效處理長文本的迫切需求,也反映了技術創新競爭的激烈程度。兩家公司的明星創始人均親自參與了研究,引發了廣泛關注。

        1. Transformer架構的瓶頸:長文本處理的挑戰

        Transformer架構雖然是AI發展史上的里程碑,但其注意力機制的計算復雜度與輸入序列長度的平方成正比(O(n2))。這意味著處理長文本(例如超過1萬個token)的計算成本和內存占用會急劇增加,成為模型進一步擴展和提升能力的主要障礙。

        2. DeepSeek的NSA:原生可訓練的稀疏注意力機制

        DeepSeek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生可訓練的稀疏注意力機制NSA (Natively Trainable Sparse Attention)。NSA通過動態分層稀疏策略,結合粗粒度token壓縮和細粒度token選擇,實現了對長上下文的高效建模。其核心在于減少不必要的計算,在保持性能的同時提升速度。NSA具有兩大創新:

        1. 算法優化:NSA設計了一種平衡計算強度的算法,并針對現代硬件進行了優化,類似于高效閱讀,只關注重要部分。
        2. 端到端訓練:NSA允許模型從頭到尾進行訓練,無需額外計算步驟,減少訓練時間并提升模型表現。

        實驗表明,NSA在多個任務上表現出色,在處理64k長度序列時,解碼、前向傳播和后向傳播分別實現了2.5倍、3.1倍和2.8倍的加速,同時保持了與全注意力模型相當甚至更好的性能。

        3. 月之暗面的MoBA:混合塊注意力架構

        月之暗面的論文《MoBA: Mixture of Block Attention for Long-Context LLMs》提出了混合塊注意力架構MoBA (Mixture of Block Attention)。MoBA同樣旨在解決長文本處理的計算瓶頸,其核心思想是讓模型自己決定關注哪些部分,而不是人為規定。MoBA借鑒了“專家混合(MoE)”的思想,靈活地在全注意力和稀疏注意力之間切換,在保持性能的同時顯著降低了計算量。

        MoBA已經被應用于月之暗面的AI助手Kimi中,幫助其更好地處理長文本請求,例如總結長篇小說。

        4. 兩家公司在模型架構上的“撞車”與思維鏈的探索

        這并非DeepSeek和月之暗面第一次在核心思想上“撞車”。此前,DeepSeek發布R1時,Kimi也公開了K1.5的技術報告,兩者的目標都是通過強化學習提升AI的推理能力,尤其是在思維鏈學習(COT)方面的應用。OpenAI在其論文中也提到了DeepSeek-R1和Kimi K1.5,認可了它們在推理能力方面的成就,并強調了COT方法的重要性。

        DeepSeek和月之暗面在長文本處理和推理能力提升上的持續探索,預示著AI模型創新正朝著更有效率、更強大的方向發展。


        聯系作者

        文章來源:人工智能學家
        作者微信:
        作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩成全视频观看免费观看高清| 亚洲精品第一综合99久久| 黄页网站在线视频免费| 免费精品一区二区三区在线观看| 亚洲国产成人久久一区久久| 亚洲av成本人无码网站| 日韩免费a级在线观看| 亚洲乱码无人区卡1卡2卡3| 成人无遮挡裸免费视频在线观看| 亚洲日韩人妻第一页| 四虎成人精品国产永久免费无码| 95免费观看体验区视频| 亚洲国产人成在线观看69网站 | 国产精品免费视频观看拍拍| 亚洲国产成人a精品不卡在线| 亚洲人成网站在线观看播放青青| jizz免费在线观看| 亚洲中文字幕久久精品无码喷水| 精品国产成人亚洲午夜福利| 成年性生交大片免费看| 西西人体大胆免费视频| jlzzjlzz亚洲乱熟在线播放| 日韩av无码免费播放| 亚洲成av人片一区二区三区 | 成人免费视频69| 亚洲中文字幕无码久久| 免费大黄网站在线看| 最近国语视频在线观看免费播放| 免费一级毛片一级毛片aa| 国产一级黄片儿免费看| 亚洲视频在线免费| 亚洲AV无码成人精品区日韩 | 国产亚洲一区二区手机在线观看| 国产精品亚洲专区无码牛牛| 中文字幕精品无码亚洲字| 免费无码中文字幕A级毛片| 日本红怡院亚洲红怡院最新| 一区二区三区AV高清免费波多| 国产一级高清视频免费看| 国产在线一区二区综合免费视频 | 国产免费69成人精品视频|