談?wù)凞eepSeek-v3提到的基礎(chǔ)設(shè)施演進
DeepSeek-v3將算法與基礎(chǔ)設(shè)施融合,推動硬件架構(gòu)創(chuàng)新。
原標題:談?wù)凞eepSeek-v3提到的基礎(chǔ)設(shè)施演進
文章來源:智猩猩GenAI
內(nèi)容字數(shù):5247字
第四屆全球自動駕駛峰會及DeepSeek-v3技術(shù)解讀
文章首先預(yù)告了1月14日在北京舉辦的第四屆全球自動駕駛峰會,并介紹了峰會的議程安排。隨后,作者以DeepSeek-v3為例,深入探討了算法與底層基礎(chǔ)設(shè)施緊密結(jié)合的重要性,以及當前大模型團隊在算法與基礎(chǔ)設(shè)施方面存在的割裂現(xiàn)象。
1. 算法與基礎(chǔ)設(shè)施的融合:DeepSeek-v3的成功案例
作者認為,DeepSeek團隊能夠成功融合算法和基礎(chǔ)設(shè)施,得益于團隊成員中擁有豐富的OI競賽經(jīng)驗,具備深厚的計算優(yōu)化能力和對處理器體系結(jié)構(gòu)的深入理解。這與許多算法工程師代碼能力有限的現(xiàn)狀形成鮮明對比。作者還幽默地將量化訓(xùn)練(Quantization)與“渣”(za)聯(lián)系起來,并強調(diào)算力不應(yīng)僅僅是約束,而應(yīng)成為可以聯(lián)合優(yōu)化的變量。
2. 算力與算法協(xié)同發(fā)展的經(jīng)驗
作者以阿里媽媽團隊在推薦系統(tǒng)中的經(jīng)驗以及量化交易領(lǐng)域為例,進一步闡述了算力與算法協(xié)同發(fā)展的必要性。在高頻交易中,團隊甚至會采用家用CPU超頻等極端手段來提升運算速度,這體現(xiàn)了對算力極致追求的必要性。
3. 對Transformer架構(gòu)及AGI的思考
作者表達了對當前Transformer架構(gòu)的質(zhì)疑,認為其依賴于大量算力的Scaling Law本質(zhì)上存在錯誤,并非通往AGI的最終途徑。因此,作者更關(guān)注底層算力優(yōu)化和頂層算法背后的數(shù)學原理,例如范疇論、代數(shù)拓撲和代數(shù)幾何等。
4. 底層算力優(yōu)化和數(shù)學基礎(chǔ)研究
作者在底層算力方面,專注于GPU微架構(gòu)分析、Tensor運算以及AI加速器高速互聯(lián)等;在數(shù)學方面,則致力于研究范疇論、代數(shù)拓撲和代數(shù)幾何在人工智能領(lǐng)域的應(yīng)用,并提及了TOPOS視角下的多模態(tài)大模型和Grothendieck圖神經(jīng)網(wǎng)絡(luò)等前沿研究。
5. 大模型的體系架構(gòu)演進與類比
作者將大模型的token預(yù)測過程類比于CPU指令執(zhí)行,并認為MoE和強化學習等技術(shù)實質(zhì)上是在token預(yù)測上進行發(fā)散,類似于CPU的分支預(yù)測器。作者還提出,當前的GPU TensorCore/Cuda Core構(gòu)成執(zhí)行引擎,而Grothendieck圖神經(jīng)網(wǎng)絡(luò)等代數(shù)結(jié)構(gòu)可以作為模型的控制路徑,這可能是實現(xiàn)類圖靈完備大模型的一條途徑。
6. DeepSeek-v3的硬件優(yōu)化策略及未來硬件需求
作者分析了DeepSeek-v3在H800被的情況下,如何通過避免TP并行以及對MoE的AlltoAll進行極致優(yōu)化(例如PXN和IBGDA等)來提升效率。同時,作者也展望了未來硬件需求,例如通信協(xié)處理器以及統(tǒng)一ScaleOut和ScaleUp網(wǎng)絡(luò)的計算單元,并指出DeepSeek對未來硬件的演進方向與作者幾年前提出的NetDAM框架高度契合。
7. NetDAM框架的優(yōu)勢與行業(yè)現(xiàn)狀
作者介紹了其在Cisco和第四范式期間參與開發(fā)的NetDAM框架,該框架能夠融合ScaleOut和ScaleUp通信,并支持多種通信原語,效率遠超RoCE。作者最后總結(jié)指出,雖然NetDAM框架在技術(shù)上具有顯著優(yōu)勢,但由于各個廠商自身的戰(zhàn)略布局和利益考量,其應(yīng)用和普及仍面臨挑戰(zhàn)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。