不用英偉達(dá)嚴(yán)選?DeepSeek最新開源項(xiàng)目再刷新認(rèn)知,為何被贊“顛覆存儲(chǔ)架構(gòu)”
DeepSeek 文件系統(tǒng)背后的“王炸”到底是什么?

原標(biāo)題:不用英偉達(dá)嚴(yán)選?DeepSeek最新開源項(xiàng)目再刷新認(rèn)知,為何被贊“顛覆存儲(chǔ)架構(gòu)”
文章來源:AI前線
內(nèi)容字?jǐn)?shù):6121字
DeepSeek開源高性能并行文件系統(tǒng)3FS:AI時(shí)代存儲(chǔ)的“王炸”
本文總結(jié)了關(guān)于DeepSeek開源高性能并行文件系統(tǒng)3FS的報(bào)道要點(diǎn),該系統(tǒng)旨在解決AI訓(xùn)練和推理中數(shù)據(jù)訪問的瓶頸問題。
1. 3FS的核心特性與優(yōu)勢(shì)
3FS,全稱Fire-Flyer File System,專為AI訓(xùn)練和推理工作負(fù)載設(shè)計(jì)。其核心設(shè)計(jì)理念是高吞吐、低延遲和強(qiáng)一致性。主要特性包括:分離式架構(gòu),整合數(shù)千塊SSD和數(shù)百個(gè)存儲(chǔ)節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬,無需考慮數(shù)據(jù)局部性;強(qiáng)一致性,利用鏈復(fù)制與分配式查詢(CRAQ)實(shí)現(xiàn);文件接口,基于成熟的元數(shù)據(jù)服務(wù)與事務(wù)型鍵值存儲(chǔ),提供通用文件API;全流程優(yōu)化,涵蓋數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)加載、檢查點(diǎn)和推理階段的KVCache等環(huán)節(jié)。
2. 3FS的性能表現(xiàn)
在大型集群測(cè)試中,3FS展現(xiàn)出驚人的性能:在一個(gè)由180個(gè)存儲(chǔ)節(jié)點(diǎn)組成的集群中,實(shí)現(xiàn)了約6.6 TiB/s的整體讀取吞吐量;GraySort基準(zhǔn)測(cè)試突破3.66 TiB/分鐘;在推理場(chǎng)景下,單個(gè)客戶端節(jié)點(diǎn)峰值可達(dá)40+ GiB/s。
3. 3FS與其他AI存儲(chǔ)方案的比較
目前,市場(chǎng)上已有DDN、VAST Data、Weka.io等商業(yè)AI存儲(chǔ)解決方案。DDN起源于HPC領(lǐng)域,更偏向傳統(tǒng)HPC存儲(chǔ);Weka.io受到一些大模型公司的青睞。而3FS的開源,被認(rèn)為填補(bǔ)了開源市場(chǎng)高性能并行文件系統(tǒng)的空白,其性能在國(guó)內(nèi)處于領(lǐng)先地位。
4. 業(yè)內(nèi)專家評(píng)價(jià)
資深存儲(chǔ)技術(shù)專家高度評(píng)價(jià)了3FS的高性能、AI訓(xùn)練和推理的全流程優(yōu)化以及KVCache訪問協(xié)議,認(rèn)為其為業(yè)界提供了更具性價(jià)比的推理解決方案,并推動(dòng)了高性能文件系統(tǒng)在推理場(chǎng)景的落地。但同時(shí)也提醒了其使用和運(yùn)維門檻較高,需要謹(jǐn)慎。
5. JuiceFS的視角
JuiceFS創(chuàng)始人蘇銳指出,分布式文件系統(tǒng)是AI訓(xùn)練的關(guān)鍵存儲(chǔ)技術(shù),3FS憑借高性能SSD和IB網(wǎng)絡(luò),適合處理LLM所需的IO密集型和計(jì)算密集型任務(wù)。
6. 開源的意義
3FS的開源,向全球展示了中國(guó)企業(yè)在技術(shù)研發(fā)上的實(shí)力,也讓業(yè)界更清晰地認(rèn)識(shí)到高性能文件系統(tǒng)在大模型訓(xùn)練中的重要性。
7. 未來展望
文章最后提及了Qcon全球軟件開發(fā)大會(huì)上關(guān)于智能時(shí)代存儲(chǔ)架構(gòu)的專題討論,預(yù)示著該領(lǐng)域未來的發(fā)展方向。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡(jiǎn)介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號(hào)