3. 安装与维护

若无特殊说明,本章是以曦云C500为例进行撰写。

3.1. 用户须知

3.1.1. 系统支持范围

目前已支持的CPU架构和内核版本,参见表 3.1

表 3.1 软硬件平台兼容列表

CPU架构

操作系统

内核版本

状态

x86_64

Ubuntu 18.04

5.4.0-42-generic

支持

5.4.0-131-generic

x86_64

Ubuntu 20.04

5.4.0-144-generic

支持

5.15.0-58-generic

x86_64

Ubuntu 22.04

5.15.0-72-generic

支持

5.15.0-112-generic

x86_64

CentOS 8

4.18.0-240.el8.x86_64

支持

x86_64

CentOS 7

4.19.0-1.el7.elrepo.x86_64

支持加载Docker Container形式

5.14.0

x86_64

BCLinux R8 U2

4.19.0-240.23.11.el8_2.bclinux.x86_64

支持

x86_64

CC Linux

5.15.131-2.cl9.x86_64

支持

x86_64

Kylin V10 SP2

4.19.90-24.4.v2101.ky10.x86_64

支持

x86_64

ALinux3

5.10.134-13.1.al8.x86_64

支持

x86_64

CTYun 23.01

5.10.0-136.12.0.86.ctl3.x86_64

支持

x86_64

KeyarchOS 5.8

4.18.0-477.27.1.3.kos5.x86_64

支持

x86_64

RockyOS 9.2

5.14.0-284.11.1.el9_2.x86_64

支持

x86_64

Debian 10

5.10.0-0.deb10.28-amd64

支持

x86_64

TencentOS 3.1

5.4.119-19.0009.54

支持

x86_64

TencentOS 3.1

5.4.119-19.0009.44

支持

3.1.2. 服务器配置建议

在AI模型训练和推理场景下,为了得到理想的多机通信性能,需要将服务器的PCIe Max Payload值设置为256。

某些服务器(比如同泰怡Arm服务器TG657V2)的PCIe Max Payload缺省值不是256,需要用户在服务器BIOS中手动设置,或者联系服务器制造商。

3.1.3. 安装包说明

为曦云系列GPU提供的基础软件包由Driver和MXMACA SDK两部分组成。

  • Driver部分通过run安装文件发布,安装包说明参见《曦云® 系列通用计算GPU驱动安装指南》中“安装包说明”章节。

  • MXMACA SDK部分通过tar包发布,以Ubuntu系统为例,软件包内容参见表 3.2 。MXMACA SDK的安装参见《曦云® 系列通用计算GPU快速上手指南》。

表 3.2 MXMACA SDK软件包列表

文件名

说明

commonLib_x.x.x.x_amd64.deb

曦云系列GPU通用lib库

macainfo_x.x.x.x_amd64.deb

曦云系列GPU软件MXMACA显示信息

mcanalyzer_x.x.x.x_amd64.deb

曦云系列GPU工具库

mcblas_x.x.x.x_amd64.deb

曦云系列GPU BLAS库,提供BLAS API接口

mccl_x.x.x.x_amd64.deb

曦云系列GPU集合通信库,实现对GPU的多线程多进程运行控制

mccompiler_x.x.x.x_amd64.deb

曦云系列GPU编译器库,提供编译功能

mcthrust_x.x.x.x_amd64.deb

曦云系列GPU CUB/Thrust库,提供CUB/Thrust API接口

mcdnn_x.x.x.x_amd64.deb

曦云系列GPU DNN库,提供DNN API接口

mceigen_x.x.x.x.amd64.deb

曦云系列GPU Eigen库,提供Eigen API接口

mcfft_x.x.x.x_amd64.deb

曦云系列GPU FFT库,提供FFT API接口

mcfile_x.x.x.x_amd64.deb

曦云系列GPU Direct Storage库

mcimage_x.x.x.x.amd64.deb

曦云系列GPU G2D库,提供G2D API接口

mcjpeg_x.x.x.x.amd64.deb

曦云系列GPU JPEG库,提供JPEG API接口

mckernellib_x.x.x.x.amd64.deb

曦云系列GPU核心库

mcmathlib_x.x.x.x.amd64.deb

曦云系列GPU数学库

mcpti_x.x.x.x_amd64.deb

曦云系列GPU pti库,提供pti API接口

mcrand_x.x.x.x_amd64.deb

曦云系列GPU random库,提供random API接口

mcruntime_x.x.x.x.amd64.deb

曦云系列GPU运行时库,提供MXMACA API接口

mcsolver_x.x.x.x_amd64.deb

曦云系列GPU SOLVER库,提供SOLVER API接口

mcsolverit_x.x.x.x_amd64.deb

曦云系列GPU SolverIT库,提供SolverIT API接口

mcsparse_x.x.x.x_amd64.deb

曦云系列GPU SPARSE库,提供SPARSE API接口

mctlass_x.x.x.x.amd64.deb

曦云系列GPU Tlass库,提供Tlass API接口

mctoolext_x.x.x.x.amd64.deb

曦云系列GPU工具

mctracer_x.x.x.x.amd64.deb

曦云系列GPU工具

metax-docker_x.x.x_amd64.deb

曦云系列GPU docker工具

mxcompute_x.x.x.x.amd64.deb

曦云系列GPU UMD硬件抽象层

mxgpu_llvm_x.x.x.x.amd64.deb

曦云系列GPU编译器

mxkw_x.x.x.x.amd64.deb

mxkw库,为与KMD交互的user-mode API

mxmaca-install_x.x.x.x.amd64.deb

曦云系列GPU辅助安装包

mxompi_x.x.x.x_amd64.deb

曦云系列GPU Open MPI库,实现GPU并行计算

mxreport_x.x.x.x.amd64.deb

mx-report工具,查询、设置日志级别,收集系统日志

mxucx_x.x.x.x_amd64.deb

曦云系列GPU UCX库

sample_x.x.x.x_amd64.deb

曦云系列GPU sample库,提供常用库的sample

3.2. 物理机上安装驱动和固件

在物理机上安装驱动和固件,参见《曦云® 系列通用计算GPU驱动安装指南》中“物理机上安装驱动和固件”章节。