2. 新增特性及变更

本章列出历次发布的新增特性及变更。

2.1. MXMACA-K8s-0.13.2

模块

特性说明

Operator

可在CRI-o运行时的环境下使用GPU Operator

部署operator时指定使用hostnetwork

2.2. MXMACA-K8s-0.13.1

模块

特性说明

Operator

device-plugin支持GPU超额分配,分配支持metaxlink

Volcano

镜像run文件支持nerdctl加载

2.3. MXMACA-C500-K8s-0.13.0

模块

特性说明

Operator

device-plugin支持GPU超额分配

镜像run文件支持nerdctl加载

mx-exporter

exporter支持GPU超配场景下的监控

sGPU

通过HAMi使用sGPU时可指定online/offline任务

2.4. MXMACA-C500-K8s-0.12.0

模块

特性说明

Extensions

用户可获取DevicePlugin源码包并构建容器镜像

Operator

用户可以用Helm Upgrade功能升级GPU Operator

runtime支持containerd config V3版本

installer恢复runtime配置时保留用户的修改内容

runtime组件日志优化

MACA和KMD 默认版本升级为2.33

mx-exporter

pmbus_soc, pmbus_core, pmbus_hbm, pmbus_pcie 四个指标合并为 pmbus_power

sGPU

sGPU卡状态健康检查

2.5. MXMACA-C500-K8s-0.11.2

模块

特性说明

sGPU

用户通过HAMi创建的sGPU任务支持拓扑感知

mx-exporter

grafana新增图表:Driver EID Errors、SDK EID Errors、Driver pci event

gpu-device (operator/extensions)

gpu-device插件新增参数 gpuDevice.connectDetectPeriod,支持断连重注册机制

2.6. MXMACA-C500-K8s-0.11.1

模块

特性说明

sGPU

device-plugin支持使用 configmap:metax-device-config 设置运行模式,代替使用标签来使能sGPU

用户通过HAMi创建sGPU任务时,可在yaml文件中指定sGPU Sched-Class

Operator

podTemplateSpec

支持在Operator安装时使用 --set-file 设置自定义Pod字段

dlrover

新增支持基于xpu_timer的hang检测

mx-exporter

新增指标:mx_pci_eventmx_ras_countmx_ras_status

2.7. MXMACA-C500-K8s-0.11.0

模块

特性说明

Operator

operator支持extensions功能

operator支持轻量化模式,类似extensions部署,支持extensions功能

配置全局toleration功能已弃用,取而代之的是工作负载Pod参数配置规范

内核驱动配置新增V2版本,支持对单颗GPU粒度的虚拟化及驱动绑定选择

metax-driver 新增 deviceAsRootGroup 选项

mxcmake

新增 --add-user NAME[:uid] 的参数支持,用于制作non-root容器镜像

新增opts参数,构建镜像时可执行额外的命令

mx-exporter

新增捕捉EID报错

新增通过docker启动exporter方式

metax-docker

支持sGPU功能

volcano

新增调度参数 tomic-gpu-group-size

2.8. MXMACA-C500-K8s-0.10.2

模块

特性说明

sGPU

新增支持sGPU分配

Operator

podTemplateSpec

新增工作负载pod参数配置

2.9. MXMACA-C500-K8s-0.10.1

无新增特性。

2.10. MXMACA-C500-K8s-0.10.0

模块

特性说明

mxcmaker

新增mxcmaker工具

2.11. MXMACA-C500-K8s-0.9.2

模块

特性说明

dlrover

新增超级节点网络检查

2.12. MXMACA-C500-K8s-0.9.1

模块

特性说明

Operator

引入一个vfio-manager组件,该组件将协调KubeVirt虚拟机与GPU Operator之间的资源共享。vfio-manager的引入将确保在k8s集群中,既能满足虚拟化环境对GPU的需求,又能保持GPU Operator的高效管理,从而实现GPU资源在Kubernetes集群中的双重利用

Extensions

volcano、dlrover

训练任务,支持自动故障恢复

2.13. MXMACA-C500-K8s-0.9.0

模块

特性说明

Operator

ConfigMap

支持配置全局toleration

支持配置内核驱动参数

支持配置内核驱动灰度发布

支持固件升级

2.14. MXMACA-C500-K8s-0.8.2

模块

特性说明

Extensions

topoDiscovery

config模式:config模式适用于集群拓扑无法自动发现的场景,在安装GPU Extensions时通过配置 --set topoDiscovery.mode=config 开启,支持自定义分组,拓扑组件部署到集群上后,会生成一个名为topo-master-config的ConfigMap,用户可以通过修改其内容控制集群节点的拓扑分组信息

topoDiscovery

dragonfly模式:dragonfly模式下也支持通过ConfigMap方式配置集群拓扑,通过ConfigMap配置的集群拓扑具有更高的优先级。配置方式参见config模式

Operator

ConfigMap

用户可以通过修改driver-config内容控制集群节点上的内核驱动参数。内核驱动参数分为集群级别(module-params)和节点级别(node-module-params)

2.15. MXMACA-C500-K8s-0.8.1

模块

特性说明

Extensions

volcano

volcano提供了丰富的调度策略,增强型的Job管理能力及良好的生态支持

gpu-aware

自定义权重,通过计算分数来进行资源调度

2.16. MXMACA-C500-K8s-0.8.0

模块

特性说明

Operator

driverpolicy

资源部署策略,支持选择使用node driver还是container driver。

用户容器镜像优化

MXMACA®由GPU Operator统一管理并部署在每个工作节点上,用户的作业运行时将使用节点上已部署的MXMACA SDK。

此过程在操作层面对用户透明,尽管用户能够感知到容器在运行时自动安装了MXMACA SDK这一变化,但无需为此做任何额外操作。

驱动自动部署

GPU Operator方案提供了自动部署驱动及配置GPU虚拟化规格的能力。管理员可配置 driver.deployPolicy 选取不同部署策略,或关闭内核态驱动的自动部署功能。

MXMACA清理策略

Never:不执行任何操作

OlderVersionFirst:根据版本号排序,优先清理老版本

OlderTimestampFirst:根据使用时间排序,优先清理未被使用的版本

Extensions

gpu-device

gpu-device包含了资源分配器的逻辑实现,对于确定份数的GPU资源请求,gpu-device总是确保从避免资源碎片,卡间互联拓扑角度进行最优分配。gpu-device会定期检查沐曦GPU设备的健康状态,识别出故障的GPU资源,并将其从可分配资源中移除。

gpu-label

负责监控k8s节点上沐曦GPU及MXMACA软件栈的状态信息,并以标签的形式对节点进行标记。用户提交任务时,可通过在 nodeSelector 字段设置节点标签的形式来筛选符合预期的节点。