2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. MXMACA-C500-K8s-0.13.0

模块		特性说明
Extensions		用户可获取DevicePlugin源码包并构建容器镜像
Operator		用户可以用Helm Upgrade功能升级GPU Operator
		runtime支持containerd config V3版本
		installer恢复runtime配置时保留用户的修改内容
		runtime组件日志优化
		MACA和KMD 默认版本升级为2.33
mx-exporter		`pmbus_soc`, `pmbus_core`, `pmbus_hbm`, `pmbus_pcie` 四个指标合并为 `pmbus_power`
sGPU		sGPU卡状态健康检查

模块		特性说明
sGPU		用户通过HAMi创建的sGPU任务支持拓扑感知
mx-exporter		grafana新增图表：Driver EID Errors、SDK EID Errors、Driver pci event
gpu-device (operator/extensions)		gpu-device插件新增参数 `gpuDevice.connectDetectPeriod`，支持断连重注册机制

模块		特性说明
sGPU		device-plugin支持使用 `configmap:metax-device-config` 设置运行模式，代替使用标签来使能sGPU
sGPU		用户通过HAMi创建sGPU任务时，可在yaml文件中指定sGPU Sched-Class
Operator	podTemplateSpec	支持在Operator安装时使用 `--set-file` 设置自定义Pod字段
dlrover		新增支持基于xpu_timer的hang检测
mx-exporter		新增指标：`mx_pci_event`、`mx_ras_count`、`mx_ras_status`

模块		特性说明
Operator		operator支持extensions功能
		operator支持轻量化模式,类似extensions部署,支持extensions功能
		配置全局toleration功能已弃用,取而代之的是工作负载Pod参数配置规范
		内核驱动配置新增V2版本,支持对单颗GPU粒度的虚拟化及驱动绑定选择
		metax-driver 新增 `deviceAsRootGroup` 选项
mxcmake		新增 `--add-user NAME[:uid]` 的参数支持,用于制作non-root容器镜像
mxcmake		新增opts参数,构建镜像时可执行额外的命令
mx-exporter		新增捕捉EID报错
mx-exporter		新增通过docker启动exporter方式
metax-docker		支持sGPU功能
volcano		新增调度参数 `tomic-gpu-group-size`

模块		特性说明
sGPU		新增支持sGPU分配
Operator	podTemplateSpec	新增工作负载pod参数配置

无新增特性。

模块		特性说明
mxcmaker		新增mxcmaker工具

模块		特性说明
dlrover		新增超级节点网络检查

模块		特性说明
Operator		引入一个vfio-manager组件，该组件将协调KubeVirt虚拟机与GPU Operator之间的资源共享。vfio-manager的引入将确保在k8s集群中，既能满足虚拟化环境对GPU的需求，又能保持GPU Operator的高效管理，从而实现GPU资源在Kubernetes集群中的双重利用
Extensions	volcano、dlrover	训练任务，支持自动故障恢复

模块		特性说明
Extensions	topoDiscovery	config模式：config模式适用于集群拓扑无法自动发现的场景，在安装GPU Extensions时通过配置 `--set topoDiscovery.mode=config` 开启，支持自定义分组，拓扑组件部署到集群上后，会生成一个名为topo-master-config的ConfigMap，用户可以通过修改其内容控制集群节点的拓扑分组信息
Extensions	topoDiscovery	dragonfly模式：dragonfly模式下也支持通过ConfigMap方式配置集群拓扑，通过ConfigMap配置的集群拓扑具有更高的优先级。配置方式参见config模式
Operator	ConfigMap	用户可以通过修改driver-config内容控制集群节点上的内核驱动参数。内核驱动参数分为集群级别（module-params）和节点级别（node-module-params）

模块		特性说明
Extensions	volcano	volcano提供了丰富的调度策略，增强型的Job管理能力及良好的生态支持
Extensions	gpu-aware	自定义权重，通过计算分数来进行资源调度

模块		特性说明
Operator	driverpolicy	资源部署策略，支持选择使用node driver还是container driver。
	用户容器镜像优化	MXMACA®由GPU Operator统一管理并部署在每个工作节点上，用户的作业运行时将使用节点上已部署的MXMACA SDK。此过程在操作层面对用户透明，尽管用户能够感知到容器在运行时自动安装了MXMACA SDK这一变化，但无需为此做任何额外操作。
	驱动自动部署	GPU Operator方案提供了自动部署驱动及配置GPU虚拟化规格的能力。管理员可配置 `driver.deployPolicy` 选取不同部署策略，或关闭内核态驱动的自动部署功能。
	MXMACA清理策略	Never：不执行任何操作 OlderVersionFirst：根据版本号排序，优先清理老版本 OlderTimestampFirst：根据使用时间排序，优先清理未被使用的版本
Extensions	gpu-device	gpu-device包含了资源分配器的逻辑实现，对于确定份数的GPU资源请求，gpu-device总是确保从避免资源碎片，卡间互联拓扑角度进行最优分配。gpu-device会定期检查沐曦GPU设备的健康状态，识别出故障的GPU资源，并将其从可分配资源中移除。
Extensions	gpu-label	负责监控k8s节点上沐曦GPU及MXMACA软件栈的状态信息，并以标签的形式对节点进行标记。用户提交任务时，可通过在 `nodeSelector` 字段设置节点标签的形式来筛选符合预期的节点。