环境重装了, 等重装后复现我再回复
环境重装了, 等重装后复现我再回复
如图所示,在这里下载的的离线包,然后解压后,进入mx-exporter/deployment/mx-exporter/helm 然后执行
helm upgrade --install mx-exporter -n cybertron-monitor ./mx-exporter
在一个单节点的k8s环境helm 部署的mx-exporter,通过servicemonitor对接Prometheus
环境里两张卡,无论哪张卡起训练任务,从exporter metres 接口拿到的数据,id=0的卡的显存使用始终等于id=1的卡的显存
好的,目前遇到的最新问题,用id=1的卡起训练任务,id=0的卡,显存利用率上报的和id=1的一样
MX-SMI 2.2.12
Kernel Mode Driver Version: 3.3.12
MACA Version: Unkonws