AiseeCloud – AI容器云平臺
AiseeCloud – AI容器云平臺主要面向企業(yè)客戶及開發(fā)者,提供輕量化、高性價比的機(jī)器學(xué)習(xí)解決方案。
向使用算力的用戶提供了對數(shù)據(jù)、算法、鏡像、模型與算力等資源的管理與使用,方便用戶一站式構(gòu)建計算環(huán)境,實(shí)現(xiàn)計算。
同時,向集群管理人員提供了集群資源管理與監(jiān)控,計算任務(wù)管理與監(jiān)控等功能,方便集群管理人員對整體系統(tǒng)進(jìn)行操作與分析。

適用場景
- 構(gòu)建大規(guī)模 AI 計算平臺
- 希望共享計算資源
- 希望在統(tǒng)一的環(huán)境下完成模型訓(xùn)練
- 希望使用集成的插件輔助模型訓(xùn)練,提升效率
系統(tǒng)演示及購買

微信掃碼并備注:AiseeCloud
平臺特點(diǎn)
- 一站式開發(fā)
為用戶提供一站式AI計算場景的開發(fā)功能,通過數(shù)據(jù)管理、模型開發(fā)和模型訓(xùn)練,打通AI計算全鏈路; - 方便管理
為平臺管理者提供一站式的資源管理平臺,通過資源配置、監(jiān)控、管控等可視化工具,大大降低平臺管理者的管理成本; - 易于部署
支持 helm 方式的快速部署,簡化復(fù)雜的部署流程; - 性能優(yōu)越
提供高性能的分布式計算體驗,通過多方面優(yōu)化來保證各個環(huán)境的流暢運(yùn)行,同時通過資源調(diào)度優(yōu)化與分布式計算優(yōu)化,進(jìn)一步提高模型訓(xùn)練效率; - 兼容性好
平臺支持異構(gòu)硬件,如 GPU、NPU、FPGA等,滿足各種不同的硬件集群部署需求,通過支持多種深度學(xué)習(xí)框架,如TensorFlow、Pytorch、PaddlePaddle 等,并可以通過自定義鏡像方式支持新增框架。
平臺架構(gòu)

- 計算平臺
計算平臺實(shí)現(xiàn)了計算平臺的核心業(yè)務(wù)功能,包括數(shù)據(jù)管理、算法管理、鏡像管理、模型開發(fā)、模型訓(xùn)練、模型管理、計費(fèi)管理和用戶管理等。 - 資源管理
資源管理主要是對集群的資源進(jìn)行管理和調(diào)度,包括存儲管理、算力管理、任務(wù)調(diào)度、網(wǎng)絡(luò)管理等 - 硬件設(shè)施
硬件設(shè)施為計算平臺所管理和調(diào)度的設(shè)備,包括存儲、網(wǎng)絡(luò)、CPU、GRU 等各類設(shè)備
平臺算力調(diào)度系統(tǒng)
平臺調(diào)度子系統(tǒng)基于Kubernetes的容器計算平臺,提供了包括基于各種主流架構(gòu)的CPU、GPU、NPU在內(nèi)的異構(gòu)設(shè)備混合調(diào)度能力,實(shí)現(xiàn)了:
- 調(diào)度算法的多樣性
- 調(diào)度性能的高效性
- 無縫對接主流計算框架
- 對異構(gòu)設(shè)備的支持

- 平備的調(diào)度
- 功能插件機(jī)制,方便自定義新的調(diào)度策略。以binpack插件為例,其使用的裝箱算法能夠解決資源碎片的問題,能夠很好的提高集群的整體使用率。
- 基于任務(wù)隊列,能夠?qū)⒓哼M(jìn)行邏輯分組,方便對用戶進(jìn)行項目制管理。一方面能夠?qū)Σ煌椖颗渲貌煌揞~的計算資源,另一方面能將不同類型的作業(yè)分到不同的任務(wù)隊列中進(jìn)行管理。對作業(yè)和計算資源的管理更加精細(xì)化。
- 平臺計算業(yè)務(wù)場景覆蓋
- 多種國產(chǎn)異構(gòu)硬件資源全面兼容,已經(jīng)支持:
- 華為NPU
- 算能TPU
- 燧原GCU
- 天數(shù)智芯GRGRU
- 沐曦GPGPY
- 寒武紀(jì)MLU
- 支持快速和靈活部署,系統(tǒng)運(yùn)行可靠穩(wěn)定,方便外部團(tuán)隊使用
- 多種國產(chǎn)異構(gòu)硬件資源全面兼容,已經(jīng)支持:
- 平臺面向管理與業(yè)務(wù)特有的調(diào)度能力
AiseeCloud平臺調(diào)度系統(tǒng)主要優(yōu)化了智算中心中的資源管理和任務(wù)調(diào)度。AiseeCloud平臺調(diào)度系統(tǒng)定義了一種靈活且統(tǒng)一的異構(gòu)硬件統(tǒng)表示方法,將各種異構(gòu)算力硬件,更有甚者還可將異構(gòu)網(wǎng)絡(luò)硬件一同匯聚形成業(yè)務(wù)層可理解、可閱讀的統(tǒng)一智算資源池,將作業(yè)調(diào)度至最優(yōu)的智算服務(wù)器中。
AiseeCloud平臺調(diào)度系統(tǒng)自定義了獨(dú)特的資源狀態(tài)統(tǒng)計與計費(fèi)管理等功能,根據(jù)AI訓(xùn)練任務(wù)特性與管理需求,優(yōu)化實(shí)現(xiàn)了:- Job、Task、Replica的別狀態(tài)機(jī)
- 實(shí)現(xiàn)自定義Event和Policy
- 實(shí)現(xiàn)生命周期回調(diào)鉤子
- 為某些特殊場景定制的優(yōu)先搶占調(diào)度能力
Aiseecloud 平臺部分能力截圖

Aiseecloud用戶端概覽

異構(gòu)資源節(jié)點(diǎn)統(tǒng)一管理

細(xì)顆粒的資源池管理,隔離集群資源,便于將不同的資源分配給不同的用戶組織

平臺提供機(jī)時管理,為單個用戶和團(tuán)隊用戶提供算力使用


提供JupterLab在線編程環(huán)境,用來調(diào)試、運(yùn)行和保存算法以支撐后續(xù)的模型訓(xùn)練

訓(xùn)練任務(wù)監(jiān)控,便于了解訓(xùn)練任務(wù)的情況及結(jié)果

數(shù)據(jù)集上傳、管理、預(yù)覽,平臺可以預(yù)置數(shù)據(jù)集

鏡像的上傳、管理,平臺可以預(yù)置鏡像

管理用戶上傳的算法和平臺預(yù)置的算法

平臺提供完善的API接口,包括管理員端API和用戶端API
系統(tǒng)演示及購買

微信掃碼并備注:AiseeCloud
數(shù)據(jù)評估
本站OpenI提供的AI算力私有云系統(tǒng)都來源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實(shí)際控制,在2024年 8月 15日 下午8:21收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。


粵公網(wǎng)安備 44011502001135號