中原大學Nvidia_AI雲平台

中原大學Nvidia高效能運算資源叢集(建制於張靜愚紀念圖書館系統資訊組機房),透過Gemini AI Console 管理系統,建構Nvidia高效能運算資源叢集, 目前系統架構主要包含一部SuperMicro SuperServer 4029GP-TRT2 伺服器內含 七張 Nvidia A100  GPU加速卡,一部Nvidia DGX 工作站(Tesla V100 GPUx4)和四部HPE ProLiant L380 Gen10工作站(Tesla P40 GPUx8)。

其中,Nvidia DGX 工作站內部包含20個核心的Intel Xeon處理器、256GB  DDR4主記憶體與四張Nvidia Tesla V100 GPU加速器(128GByte),每一部HPE ProLiant L380工作站內部包含兩顆20個核心的Intel Xeon Gold 6148處理器、256GB  DDR4主記憶體與二張Nvidia Tesla P40 GPU加速器。這些工作站透過10Gbps高速乙太網路與網路檔案系統(NFS) 共享 64 Terabytes 的網路硬碟資料儲存空間。

這一個高效能運算叢集是基於 Kubernetes平台即服務(platform as a service,PaaS)之基礎,提供容器管理調度平台, 讓使用者可以很方便的取得與使用容器資源。使用者透過校園網路經過LDAP帳號認證登入之後,就可以擁有100GByte的網路硬碟儲存空間,透過網頁瀏覽器,可以自行展開容器提供的IDE介面視窗,使用諸如PyTorch、Jupyter Notebook 與 RStudio 等應用開發環境,進行互動式程式編輯和基礎課程學習,更可以透過任務排程方式執行訓練程式,提昇大規模資料分析的計算資源使用效率。

高效能運算資源叢集提供非常多樣性的應用環境與資源配置方案(Solution/Flavor),目前系統提供七種不同的應用環境組合(Container Image Solutions) (應用環境組合列表) ,包含應用程式(Matlab, Xilinx FPGA, OpenCV, 持續增加中)、開發環境(PyCharm, Jupyter notebook, Visual Studio Code)、不同版本的機器學習程式庫(TensorFlow)、還有相關驅動軟體。

使用者可以透過管理平台(Gemini AI Console) ,按照本身的需求,自由的選擇不同數量的計算資源配置(CPUs/GPUs Flavor),來進行模型的訓練和資料的分析。 

本系統提供全校師生申請,目前有橫跨全校設計、電資、理、工與商學各院,包含化工系、物理系、機械系、電子系、資訊系、資管系、財經系、建築、土木系、應用數和醫學工程系超過150位的老師與學生們正在使用。