3. 安装与维护
若无特殊说明,本章是以曦云C500为例进行撰写。
3.1. 用户须知
3.1.1. 系统支持范围
目前已支持的CPU架构和内核版本,参见表 3.1。
CPU架构 |
操作系统 |
内核版本 |
状态 |
|---|---|---|---|
x86_64 |
Ubuntu 18.04 |
5.4.0-42-generic |
支持 |
5.4.0-131-generic |
|||
x86_64 |
Ubuntu 20.04 |
5.4.0-144-generic |
支持 |
5.15.0-58-generic |
|||
x86_64 |
Ubuntu 22.04 |
5.15.0-72-generic |
支持 |
5.15.0-112-generic |
|||
x86_64 |
Ubuntu 24.04 |
6.14.0-27-generic |
支持 |
x86_64 |
CentOS 8 |
4.18.0-240.el8.x86_64 |
支持 |
x86_64 |
CentOS 7 |
4.19.0-1.el7.elrepo.x86_64 |
支持加载Docker Container形式 |
5.14.0 |
|||
x86_64 |
BCLinux R8 U2 |
4.19.0-240.23.11.el8_2.bclinux.x86_64 |
支持 |
x86_64 |
CC Linux |
5.15.131-2.cl9.x86_64 |
支持 |
x86_64 |
Kylin V10 SP2 |
4.19.90-24.4.v2101.ky10.x86_64 |
支持 |
x86_64 |
ALinux3 |
5.10.134-13.1.al8.x86_64 |
支持 |
x86_64 |
CTYun 23.01 |
5.10.0-136.12.0.86.ctl3.x86_64 |
支持 |
x86_64 |
KeyarchOS 5.8 |
4.18.0-477.27.1.3.kos5.x86_64 |
支持 |
x86_64 |
RockyOS 9.2 |
5.14.0-284.11.1.el9_2.x86_64 |
支持 |
x86_64 |
Debian 10 |
5.10.0-0.deb10.28-amd64 |
支持 |
x86_64 |
TencentOS 3.1 |
5.4.119-19.0009.54 |
支持 |
x86_64 |
TencentOS 3.1 |
5.4.119-19.0009.44 |
支持 |
aarch64 |
KylinV10 |
5.15.0-1.10.6.v2307.ky10h.aarch64 |
支持 |
3.1.2. 服务器配置建议
在AI模型训练和推理场景下,为了得到理想的多机通信性能,需要将服务器的PCIe Max Payload值设置为256。
某些服务器(比如同泰怡Arm服务器TG657V2)的PCIe Max Payload缺省值不是256,需要用户在服务器BIOS中手动设置,或者联系服务器制造商。
3.1.3. 安装包说明
为曦云系列GPU提供的基础软件包由Driver和MXMACA SDK两部分组成。
Driver部分通过run安装文件发布,安装包说明参见《曦云® 系列通用GPU驱动安装指南》中“安装包说明”章节。
MXMACA SDK部分通过tar包发布,以Ubuntu系统为例,软件包内容参见表 3.2 。MXMACA SDK的安装参见《曦云® 系列通用GPU快速上手指南》。
文件名 |
说明 |
|---|---|
commonLib_x.x.x.x_amd64.deb |
曦云系列GPU通用lib库 |
macainfo_x.x.x.x_amd64.deb |
曦云系列GPU软件MXMACA显示信息 |
mcanalyzer_x.x.x.x_amd64.deb |
曦云系列GPU工具库 |
mcblas_x.x.x.x_amd64.deb |
曦云系列GPU BLAS库,提供BLAS API接口 |
mccl_x.x.x.x_amd64.deb |
曦云系列GPU集合通信库,实现对GPU的多线程多进程运行控制 |
mccompiler_x.x.x.x_amd64.deb |
曦云系列GPU编译器库,提供编译功能 |
mcthrust_x.x.x.x_amd64.deb |
曦云系列GPU CUB/Thrust库,提供CUB/Thrust API接口 |
mcdnn_x.x.x.x_amd64.deb |
曦云系列GPU DNN库,提供DNN API接口 |
mceigen_x.x.x.x.amd64.deb |
曦云系列GPU Eigen库,提供Eigen API接口 |
mcfft_x.x.x.x_amd64.deb |
曦云系列GPU FFT库,提供FFT API接口 |
mcfile_x.x.x.x_amd64.deb |
曦云系列GPU Direct Storage库 |
mcimage_x.x.x.x.amd64.deb |
曦云系列GPU G2D库,提供G2D API接口 |
mcjpeg_x.x.x.x.amd64.deb |
曦云系列GPU JPEG库,提供JPEG API接口 |
mckernellib_x.x.x.x.amd64.deb |
曦云系列GPU核心库 |
mcmathlib_x.x.x.x.amd64.deb |
曦云系列GPU数学库 |
mcpti_x.x.x.x_amd64.deb |
曦云系列GPU pti库,提供pti API接口 |
mcrand_x.x.x.x_amd64.deb |
曦云系列GPU random库,提供random API接口 |
mcruntime_x.x.x.x.amd64.deb |
曦云系列GPU运行时库,提供MXMACA API接口 |
mcsolver_x.x.x.x_amd64.deb |
曦云系列GPU SOLVER库,提供SOLVER API接口 |
mcsolverit_x.x.x.x_amd64.deb |
曦云系列GPU SolverIT库,提供SolverIT API接口 |
mcsparse_x.x.x.x_amd64.deb |
曦云系列GPU SPARSE库,提供SPARSE API接口 |
mctlass_x.x.x.x.amd64.deb |
曦云系列GPU Tlass库,提供Tlass API接口 |
mctoolext_x.x.x.x.amd64.deb |
曦云系列GPU工具 |
mctracer_x.x.x.x.amd64.deb |
曦云系列GPU工具 |
metax-docker_x.x.x_amd64.deb |
曦云系列GPU docker工具 |
mxcompute_x.x.x.x.amd64.deb |
曦云系列GPU UMD硬件抽象层 |
mxgpu_llvm_x.x.x.x.amd64.deb |
曦云系列GPU编译器 |
mxkw_x.x.x.x.amd64.deb |
mxkw库,为与KMD交互的user-mode API |
mxmaca-install_x.x.x.x.amd64.deb |
曦云系列GPU辅助安装包 |
mxompi_x.x.x.x_amd64.deb |
曦云系列GPU Open MPI库,实现GPU并行计算 |
mxreport_x.x.x.x.amd64.deb |
mx-report工具,查询、设置日志级别,收集系统日志 |
mxucx_x.x.x.x_amd64.deb |
曦云系列GPU UCX库 |
sample_x.x.x.x_amd64.deb |
曦云系列GPU sample库,提供常用库的sample |
3.2. 物理机上安装驱动和固件
在物理机上安装驱动和固件,参见《曦云® 系列通用GPU驱动安装指南》中“物理机上安装驱动和固件”章节。