LLaDA 2.0 – 螞蟻集團開源的離散擴散大語言模型
LLaDA 2.0:螞蟻集團突破性離散擴散大語言模型震撼登場
在人工智能的浪潮中,語言模型的演進從未停止。近日,螞蟻集團重磅發布了其自主研發的離散擴散大語言模型(dLLM)——LLaDA 2.0。這款模型不僅帶來了 16B(mini)和 100B(flash)兩個不同規模的版本,更重要的是,它成功打破了傳統擴散模型在參數規模擴展上的固有瓶頸,首次將擴散模型的參數量推向了驚人的 100B 量級,為業界樹立了新的標桿。
LLaDA 2.0 究竟有何與眾不同?
LLaDA 2.0 的出現,標志著離散擴散大語言模型邁入了前所未有的發展階段。它集成了 16B 和 100B 兩種規格,其中 100B 版本更是刷新了擴散語言模型的規模紀錄,徹底解決了此前擴散模型難以大規模部署的難題。其核心創新之一在于采用了精巧的 Warmup-Stable-Decay(WSD)持續預訓練策略。這一策略使得 LLaDA 2.0 能夠實現從自回歸(AR)模型向擴散模型的平滑過渡,不僅完美繼承了 AR 模型積累的豐富知識,更規避了從零開始訓練所帶來的高昂計算成本和時間消耗。
LLaDA 2.0 的核心優勢概覽
- 磅礴的參數規模:LLaDA 2.0 提供了 16B 和 100B 兩個版本,穩居當前擴散語言模型規模的頂端,有效突破了擴散模型在擴展性上的局限。
- 迅疾的推理效能:得益于先進的并行解碼機制,LLaDA 2.0 在推理速度上表現卓越,能夠達到每秒 535 個 token,比同等規模的自回歸模型快了驚人的 2.1 倍,極大地提升了內容生成的效率。
- 無縫的知識遷移:通過獨創的 Warmup-Stable-Decay(WSD)預訓練策略,LLaDA 2.0 實現了從自回歸模型到擴散模型的平穩過渡,有效地保留了 AR 模型的知識精華,避免了從頭訓練的巨大投入。
- 出色的性能表現:在諸如代碼生成、數學推理以及智能體任務等結構化生成領域,LLaDA 2.0 展現出了壓倒性的優勢。而在其他通用文本生成任務上,其表現也與頂尖的開源 AR 模型不相上下。
- 開放共享的承諾:為了促進社區的共同發展,LLaDA 2.0 的全部模型權重(包括 16B 和 100B 版本)以及配套的訓練代碼,已在 Hugging Face 平臺上完全開源,為開發者和研究人員提供了便捷的使用入口。
LLaDA 2.0 的技術內核解析
- 擴散模型架構的革新:LLaDA 2.0 的根基是擴散模型(Diffusion Model),它通過逐步去除噪聲的方式來生成文本。與傳統的自回歸模型逐字生成不同,擴散模型能夠實現并行解碼,從而大幅提升生成速度。
- 混合專家架構(MoE)的智慧:引入了混合專家架構(MoE),在每次推理時,僅需激活約 14.4 億的參數。這種設計在保證模型高性能的同時,顯著降低了計算資源的消耗。
- Warmup-Stable-Decay(WSD)預訓練策略的精妙:該策略包含三個階段的預訓練過程:逐步增大塊大小、進行全序列訓練,以及縮小塊大小。這一序列操作使得模型能夠從自回歸模型平滑地過渡到擴散模型,有效繼承已有知識并優化推理效率。
- 置信度感知并行訓練(CAP)的提速之道:在并行解碼過程中,CAP 通過引入輔助損失函數,獎勵那些“預測正確且置信度高”的 token,從而提升了解碼的整體效率,實現了高速推理。
- 擴散模型版的 DPO 優化:通過利用證據下界(ELBO)來近似條件概率,LLaDA 2.0 將偏好學習(DPO)技術成功適配到擴散模型中,使得模型的輸出更符合人類的偏好。
- 文檔級注意力掩碼的精細控制:在處理多文檔拼接訓練時,LLaDA 2.0 設計了文檔級注意力掩碼,有效防止了不同文檔之間產生錯誤的語義連接,確保了長文本生成過程中的連貫性和準確性。
LLaDA 2.0 的探索之旅:項目地址
- Hugging Face 模型庫:https://huggingface.co/collections/inclusionAI/llada-20
- 技術報告:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
LLaDA 2.0 的廣闊應用前景
- 高效代碼生成:LLaDA 2.0 在代碼生成領域表現尤為搶眼,能夠產出高質量的代碼片段,極大地加速了開發者的工作流程。
- 精準數學推理:該模型在解決數學問題和進行復雜推理方面展現出強大的能力,為教育、科研等領域提供了有力支持。
- 智能體任務的賦能:LLaDA 2.0 能夠支持復雜的智能體調用和處理長文本任務,特別適用于需要多步驟推理和工具集成的場景。
- 創意文本生成:模型能夠生成引人入勝的文本內容,為創意寫作、內容創作等領域注入新的活力。
- 智能知識問答:在知識理解和問答任務中,LLaDA 2.0 表現出色,是構建智能客服、知識圖譜等應用的理想選擇。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號