3FS – DeepSeek推出的高性能分布式文件系統
3FS(Fire-Flyer File System)是DeepSeek推出的一款高效分布式文件系統,專門為人工智能的訓練和推理任務而設計。它利用現代SSD和RDMA網絡技術,通過分離式架構整合數千個SSD的吞吐量和數百個存儲節點的網絡帶寬,能夠實現高達6.6 TiB/s的讀取吞吐量。此外,3FS確保強一致性并提供通用文件接口,用戶無需學習新的存儲API。
3FS是什么
3FS(Fire-Flyer File System)是由DeepSeek開發的高性能分布式文件系統,專門針對人工智能的訓練和推理任務進行優化。利用現代SSD和RDMA網絡技術,3FS通過分離式架構聚合數千個SSD的高吞吐量以及數百個存儲節點的網絡帶寬,提供高達6.6 TiB/s的讀取速率。3FS不僅提供強一致性保障,還支持通用文件接口,用戶無需學習新的存儲API。其在大規模數據處理和推理優化方面表現卓越,在GraySort測試中實現了3.66 TiB/min的吞吐量,而KVCache的讀取吞吐量可達40 GiB/s。
3FS的主要功能
- 卓越的數據訪問性能:聚合數千個SSD的吞吐量,結合數百個存儲節點的網絡帶寬,提供高達6.6 TiB/s的讀取速率。支持大規模集群中的高吞吐量并行讀寫,極大優化AI訓練和推理任務中的數據加載效率。
- 強一致性保障:通過鏈式復制與分配查詢(CRAQ)技術確保數據的一致性,簡化應用開發過程。
- 通用文件接口:提供無狀態的元數據服務,支持事務性鍵值存儲(如FoundationDB),用戶無需學習新的存儲API。
- 優化AI工作負載:
- 高效的數據準備:有效管理大量中間輸出,支持層次化目錄結構。
- 快速數據加載:支持跨計算節點的隨機訪問,無需預取或數據集的洗牌。
- 檢查點支持:為大規模訓練提供高吞吐量并行檢查點功能。
- KVCache技術:為推理任務提供高吞吐量、大容量的緩存方案,優化推理效率。
- 高擴展性與靈活性:支持大規模集群部署,適用于從單節點到數千節點的多種應用場景。
3FS的技術原理
- 分離式架構:采用計算與存儲分離的設計方式,集中管理存儲資源,通過高速網絡(如RDMA)實現高效的數據傳輸,簡化資源管理。
- 鏈式復制與分配查詢(CRAQ):通過CRAQ技術實現強一致性,利用鏈式復制確保多個副本間的數據一致性,并通過分配查詢優化讀取性能,降低延遲。
- 無狀態元數據服務:3FS的無狀態元數據服務基于事務性鍵值存儲(如FoundationDB),提高系統可擴展性,降低元數據管理復雜度。
- Direct I/O與RDMA優化:采用Direct I/O直接訪問SSD,避免使用文件緩存,減少CPU和內存開銷,并利用RDMA技術提升數據傳輸效率。
- KVCache技術:在推理任務中,KVCache緩存關鍵中間結果,避免重復計算,顯著提高推理效率。KVCache結合高吞吐量和大容量的優勢,是DRAM緩存的經濟替代方案。
- 數據局部性優化:通過優化數據布局和訪問模式,降低數據傳輸延遲和帶寬消耗,尤其在大規模分布式訓練和推理任務中表現優異。
3FS的性能表現
- 大規模讀取吞吐量:在一個由180個存儲節點組成的集群中,每個存儲節點配備2×200Gbps InfiniBand網卡和16個14TiB NVMe SSD。約500+個客戶端節點用于讀取壓力測試,每個客戶端節點配置1×200Gbps InfiniBand網卡。在訓練作業的背景流量下,最終聚合讀取吞吐量達到約6.6 TiB/s。
- GraySort性能測試:在GraySort基準測試中,3FS表現出色。GraySort是一項用于衡量分布式系統數據處理能力的大規模數據排序測試。測試集群包含25個存儲節點(每個節點2個NUMA域,每個域1個存儲服務,2×400Gbps NIC)和50個計算節點(每個節點192個物理核心,2.2 TiB內存,1×200Gbps NIC)。3FS成功在該測試中完成110.5 TiB數據的排序任務,耗時僅為30分鐘14秒,平均吞吐量達到3.66 TiB/min。
- KVCache推理優化:KVCache是3FS為優化大型語言模型推理過程而設計的緩存技術,基于緩存解碼層中的關鍵向量和值向量,避免重復計算。在KVCache的性能測試中,讀取吞吐量峰值達到了40 GiB/s,顯著提升了推理效率。KVCache的垃圾回收(GC)操作表現出高IOPS性能,確保緩存的高效管理和更新。
3FS的項目地址
- GitHub倉庫:https://github.com/deepseek-ai/3FS
3FS的應用場景
- 大規模AI訓練:高效支持海量數據的快速讀寫,提升訓練效率。
- 分布式數據處理:優化數據加載和管理,支持隨機訪問,無需預取或數據集的洗牌。
- 推理優化:通過KVCache緩存中間結果,減少重復計算,提升推理效率。
- 檢查點支持:提供高吞吐量的并行檢查點功能,保障訓練任務的穩定性和可恢復性。
- 多節點計算環境:無縫集成到大規模集群,支持靈活擴展,滿足不同規模的AI應用需求。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...