2. 新增特性及变更
本章列出历次发布的新增特性及变更。
2.1. MXMACA-C500-K8s-0.13.0
模块 |
特性说明 |
|
|---|---|---|
Operator |
device-plugin支持GPU超额分配 |
|
镜像run文件支持nerdctl加载 |
||
mx-exporter |
exporter支持GPU超配场景下的监控 |
2.2. MXMACA-C500-K8s-0.12.0
模块 |
特性说明 |
|
|---|---|---|
Extensions |
用户可获取DevicePlugin源码包并构建容器镜像 |
|
Operator |
用户可以用Helm Upgrade功能升级GPU Operator |
|
runtime支持containerd config V3版本 |
||
installer恢复runtime配置时保留用户的修改内容 |
||
runtime组件日志优化 |
||
MACA和KMD 默认版本升级为2.33 |
||
mx-exporter |
|
|
sGPU |
sGPU卡状态健康检查 |
2.3. MXMACA-C500-K8s-0.11.2
模块 |
特性说明 |
|
|---|---|---|
sGPU |
用户通过HAMi创建的sGPU任务支持拓扑感知 |
|
mx-exporter |
grafana新增图表:Driver EID Errors、SDK EID Errors、Driver pci event |
|
gpu-device (operator/extensions) |
gpu-device插件新增参数 |
2.4. MXMACA-C500-K8s-0.11.1
模块 |
特性说明 |
|
|---|---|---|
sGPU |
device-plugin支持使用 |
|
用户通过HAMi创建sGPU任务时,可在yaml文件中指定sGPU Sched-Class |
||
Operator |
podTemplateSpec |
支持在Operator安装时使用 |
dlrover |
新增支持基于xpu_timer的hang检测 |
|
mx-exporter |
新增指标: |
2.5. MXMACA-C500-K8s-0.11.0
模块 |
特性说明 |
|
|---|---|---|
Operator |
operator支持extensions功能 |
|
operator支持轻量化模式,类似extensions部署,支持extensions功能 |
||
配置全局toleration功能已弃用,取而代之的是工作负载Pod参数配置规范 |
||
内核驱动配置新增V2版本,支持对单颗GPU粒度的虚拟化及驱动绑定选择 |
||
metax-driver 新增 |
||
mxcmake |
新增 |
|
新增opts参数,构建镜像时可执行额外的命令 |
||
mx-exporter |
新增捕捉EID报错 |
|
新增通过docker启动exporter方式 |
||
metax-docker |
支持sGPU功能 |
|
volcano |
新增调度参数 |
2.6. MXMACA-C500-K8s-0.10.2
模块 |
特性说明 |
|
|---|---|---|
sGPU |
新增支持sGPU分配 |
|
Operator |
podTemplateSpec |
新增工作负载pod参数配置 |
2.7. MXMACA-C500-K8s-0.10.1
无新增特性。
2.8. MXMACA-C500-K8s-0.10.0
模块 |
特性说明 |
|
|---|---|---|
mxcmaker |
新增mxcmaker工具 |
2.9. MXMACA-C500-K8s-0.9.2
模块 |
特性说明 |
|
|---|---|---|
dlrover |
新增超级节点网络检查 |
2.10. MXMACA-C500-K8s-0.9.1
模块 |
特性说明 |
|
|---|---|---|
Operator |
引入一个vfio-manager组件,该组件将协调KubeVirt虚拟机与GPU Operator之间的资源共享。vfio-manager的引入将确保在k8s集群中,既能满足虚拟化环境对GPU的需求,又能保持GPU Operator的高效管理,从而实现GPU资源在Kubernetes集群中的双重利用 |
|
Extensions |
volcano、dlrover |
训练任务,支持自动故障恢复 |
2.11. MXMACA-C500-K8s-0.9.0
模块 |
特性说明 |
|
|---|---|---|
Operator |
ConfigMap |
支持配置全局toleration |
支持配置内核驱动参数 |
||
支持配置内核驱动灰度发布 |
||
支持固件升级 |
2.12. MXMACA-C500-K8s-0.8.2
模块 |
特性说明 |
|
|---|---|---|
Extensions |
topoDiscovery |
config模式:config模式适用于集群拓扑无法自动发现的场景,在安装GPU Extensions时通过配置 |
topoDiscovery |
dragonfly模式:dragonfly模式下也支持通过ConfigMap方式配置集群拓扑,通过ConfigMap配置的集群拓扑具有更高的优先级。配置方式参见config模式 |
|
Operator |
ConfigMap |
用户可以通过修改driver-config内容控制集群节点上的内核驱动参数。内核驱动参数分为集群级别(module-params)和节点级别(node-module-params) |
2.13. MXMACA-C500-K8s-0.8.1
模块 |
特性说明 |
|
|---|---|---|
Extensions |
volcano |
volcano提供了丰富的调度策略,增强型的Job管理能力及良好的生态支持 |
gpu-aware |
自定义权重,通过计算分数来进行资源调度 |
2.14. MXMACA-C500-K8s-0.8.0
模块 |
特性说明 |
|
|---|---|---|
Operator |
driverpolicy |
资源部署策略,支持选择使用node driver还是container driver。 |
用户容器镜像优化 |
MXMACA®由GPU Operator统一管理并部署在每个工作节点上,用户的作业运行时将使用节点上已部署的MXMACA SDK。 此过程在操作层面对用户透明,尽管用户能够感知到容器在运行时自动安装了MXMACA SDK这一变化,但无需为此做任何额外操作。 |
|
驱动自动部署 |
GPU Operator方案提供了自动部署驱动及配置GPU虚拟化规格的能力。管理员可配置 |
|
MXMACA清理策略 |
Never:不执行任何操作 OlderVersionFirst:根据版本号排序,优先清理老版本 OlderTimestampFirst:根据使用时间排序,优先清理未被使用的版本 |
|
Extensions |
gpu-device |
gpu-device包含了资源分配器的逻辑实现,对于确定份数的GPU资源请求,gpu-device总是确保从避免资源碎片,卡间互联拓扑角度进行最优分配。gpu-device会定期检查沐曦GPU设备的健康状态,识别出故障的GPU资源,并将其从可分配资源中移除。 |
gpu-label |
负责监控k8s节点上沐曦GPU及MXMACA软件栈的状态信息,并以标签的形式对节点进行标记。用户提交任务时,可通过在 |