使用maca-3.5.3,下载的mcProfiler工具包也是3.5.3
在host端进行测试
在host端编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在host端执行./vectorAdd也可运行成功
采用如下方式配置mcProfiler,基本信息为,使用mcProfiler未采集到信息(有报错),每一个Execute Loop都完成了。请问报错信息指的是什么?是哪里配置有问题吗?
使用maca-3.5.3,下载的mcProfiler工具包也是3.5.3
在host端进行测试
在host端编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在host端执行./vectorAdd也可运行成功
采用如下方式配置mcProfiler,基本信息为,使用mcProfiler未采集到信息(有报错),每一个Execute Loop都完成了。请问报错信息指的是什么?是哪里配置有问题吗?
想监测容器里的程序,mcProfiler工具没有反应,
在容器中编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在容器内执行./vectorAdd也可运行成功
具体配置如下:
此外,也尝试了将Work Directory设置为host端的目录,cmd line增加了cd /workspace/vectorAdd; 同样没有反应
请问监测容器内的程序,需要如何配置?
1.服务器厂家:浪潮
2.沐曦GPU型号: MetaX C500
3.操作系统内核版本:6.8.0-53-generic
4.是否开启CPU虚拟化:已开启
5.mx-smi回显:
mx-smi version: 2.2.12
Kernel Mode Driver Version: 3.6.11
MACA Version: 3.5.3.18
BIOS Version: 1.31.1.0
Attached GPUs: 8
+---------------------------------------------------------------------------------+
| GPU Name | Bus-id | Temp | Pwr:Usage/Cap | Memory-Usage | State |
|================|===============|======|===============|==============|=========|
| 0 MetaX C500 | 0000:11:00.0 | 45C | 60W / 350W | 859/65536 MB | Available|
| 1 MetaX C500 | 0000:12:00.0 | 50C | 67W / 350W | 859/65536 MB | Available|
| 2 MetaX C500 | 0000:13:00.0 | 51C | 66W / 350W | 859/65536 MB | Available|
| 3 MetaX C500 | 0000:15:00.0 | 46C | 63W / 350W | 859/65536 MB | Available|
| 4 MetaX C500 | 0000:3e:00.0 | 51C | 85W / 350W | 1307/65536 MB| Available|
| 5 MetaX C500 | 0000:3f:00.0 | 48C | 63W / 350W | 859/65536 MB | Available|
| 6 MetaX C500 | 0000:40:00.0 | 80C | 220W / 350W | 63680/65536MB| Available|
| 7 MetaX C500 | 0000:41:00.0 | 78C | 226W / 350W | 63680/65536MB| Available|
+---------------------------------------------------------------------------------+
6.docker info回显:
Client: Docker Engine - Community
Version: 29.1.4
Context: default
Debug Mode: false
Plugins:
buildx: Docker Buildx (Docker Inc.)
Version: v0.30.1
Path: /usr/libexec/docker/cli-plugins/docker-buildx
compose: Docker Compose (Docker Inc.)
Version: v5.0.1
Path: /usr/libexec/docker/cli-plugins/docker-compose
Server:
Containers: 59
Running: 22
Paused: 0
Stopped: 37
Images: 44
Server Version: 29.1.4
Storage Driver: overlayfs
driver-type: io.containerd.snapshotter.v1
Logging Driver: json-file
Cgroup Driver: systemd
Cgroup Version: 2
Plugins:
Volume: local
Network: bridge host ipvlan macvlan null overlay
Log: awslogs fluentd gcplogs gelf journald json-file local splunk syslog
CDI spec directories:
/etc/cdi
/var/run/cdi
Swarm: inactive
Runtimes: io.containerd.runc.v2 runc
Default Runtime: runc
Init Binary: docker-init
containerd version: dea7da592f5d1d2b7755e3a161be07f43fad8f75
runc version: v1.3.4-0-gd6d73eb8
init version: de40ad0
Security Options:
apparmor
seccomp
Profile: builtin
cgroupns
Kernel Version: 6.8.0-53-generic
Operating System: Ubuntu 24.04.3 LTS
OSType: linux
Architecture: x86_64
CPUs: 224
Total Memory: 1007GiB
ID: 1f93fd3c-81e2-4076-a6d1-327b53156bf8
Docker Root Dir: /var/lib/docker
Debug Mode: false
Experimental: false
7.镜像版本:cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64
8.启动容器命令:
docker run -d \
--name mcprofiler_test \
--privileged \
--network host \
--shm-size 64m \
-v /data1:/data1 \
-v /data2:/data2 \
-v /data1/test:/workspace \
-v /data1/cuda-13.2:/usr/local/cuda \
-v /opt/maca-3.5.3/tools:/tools \
cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 \
/bin/bash
9.容器内执行程序的命令:
cd /workspace/vectorAdd
./vectorAdd
二、问题现象
如上面的描述所示,无其他日志
尊敬的开发者您好,docker run参数请加-it,--shme-size改为100g尝试
请问host端的报错是什么问题?应该如何修改呢?
文件中是进行host端测试时产生的log
此外,根据您的建议,重新创建了容器,命令如下:
docker run -itd --privileged=true --security-opt apparmor=unconfined --net=host --ipc=host --shm-size=100g --device=/dev/mxcd --device=/dev/dri -v /data1:/data1 -v /data2:/data2 -v /data1/test:/workspace -v /data/data_shared/cuda-13.2:/usr/local/cuda -v /opt/maca-3.5.3/tools:/tools --name mcprofiler_test -w=/workspace cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 /bin/bash
使用这里描述的配置,结果仍然和引用中描述的相同
log没有执行内容,用执行过perf操作的路径下的log
不好意思,刚刚不同路径下的两个mcProfiler工具似乎互相影响到了,如下为重新运行后的文件
因为某些原因(防火墙之类)maca的rpc端口被禁了。
解决办法:先开放一个非常用端口p,在perf_exec界面点加号添加一个环境变量MCTX_TARGET_RPCSRV_PORT,值为先前开放的端口p
使用这个方法,将host端程序监测出错的问题解决了,但是容器内的程序还是未监测到,
创建容器的命令:
docker run -itd --privileged=true --security-opt apparmor=unconfined --net=host --ipc=host --shm-size=100g --device=/dev/mxcd --device=/dev/dri -v /data1:/data1 -v /data2:/data2 -v /data1/test:/workspace -v /data/data_shared/cuda-13.2:/usr/local/cuda -v /opt/maca-3.5.3/tools:/tools --name mcprofiler_test -w=/workspace cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 /bin/bash
mcProfiler中的配置如下图所示
想请教一下为什么容器内的程序还是没能获取到相应的信息?
日志看起来还是不太全。重启下mcProfiler,执行下这次perf,连日志和docker inspect mcprofiler_test的结果一起发下,谢谢
您好,重新执行了一下,大概等待了15分钟,GUI界面中Usage Time 一直为0s
docker在v28版本开始对inspect接口有修改,目前mcProfiler最大支持的仍然是v27版本,需要等新版本支持,感谢反馈