參與開源的還有阿里云、華為存儲、面壁智能、趨境科技等
Kimi底層推理架構Mooncake開源
近日,Kimi底層推理架構Mooncake正式宣布開源,該架構承載了Kimi線上80%以上的流量。此次開源由月之暗面Kimi與清華大學等機構聯合發布,采用分階段的方式逐步開放高性能KVCache多級緩存Mooncake Store的實現,并兼容各類推理引擎及底層存儲/傳輸資源。
1. Mooncake的核心技術
Mooncake系統基于KVCache中心的解耦架構,分離了預填充集群與解碼集群,充分利用了GPU集群中的CPU、DRAM和SSD資源。其調度程序旨在平衡整體吞吐量與延遲相關的服務級別目標(SLO)。在流量高峰期,Mooncake通過早期拒絕策略和預測未來負載的方法來有效應對超載問題。
2. 提升推理性能
根據論文實驗結果,Mooncake在某些模擬場景中可實現高達525%的吞吐量提升,同時遵守SLO標準。在實際工作負載下,Mooncake使Kimi能夠處理超過75%的請求。許欣然表示,目前該系統承擔了Kimi線上80%以上的流量,極大提升了用戶體驗并降低了運營成本。
3. 開源項目的前景
為了加速Mooncake技術框架的應用與推廣,Kimi聯合多家機構發布了開源項目,參與方包括AISoft、阿里云、華為存儲等。Mooncake項目將為大模型時代構建新的高性能內存語義存儲標準接口,鼓勵更多企業與研究機構共同探索高效的模型推理系統架構創新。
4. 結論
Mooncake的開源標志著在大模型推理技術領域的一個重要進展,未來有望推動整個行業向更高效的推理平臺發展。開發者和研究者可以通過GitHub獲取Mooncake的相關資源,參與到這一創新項目中。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...