MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 解决中

mcProfiler工具的使用问题

SunnySun
2026年5月12日
chat_bubble_outline 14
  • link
    SunnySun
    Members 14 posts
    2026年5月12日 17:17 2026年5月12日 17:17
    link

    使用maca-3.5.3,下载的mcProfiler工具包也是3.5.3
    在host端进行测试
    在host端编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在host端执行./vectorAdd也可运行成功

    采用如下方式配置mcProfiler,基本信息为,使用mcProfiler未采集到信息(有报错),每一个Execute Loop都完成了。请问报错信息指的是什么?是哪里配置有问题吗?

    image.png

    PNG, 22.1 KB, uploaded by SunnySun on 2026年5月12日.

    image.png

    PNG, 77.8 KB, uploaded by SunnySun on 2026年5月12日.

    image.png

    PNG, 80.7 KB, uploaded by SunnySun on 2026年5月12日.

  • link
    SunnySun
    Members 14 posts
    2026年5月12日 17:32 2026年5月12日 17:32
    link

    想监测容器里的程序,mcProfiler工具没有反应,
    在容器中编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在容器内执行./vectorAdd也可运行成功

    具体配置如下:

    此外,也尝试了将Work Directory设置为host端的目录,cmd line增加了cd /workspace/vectorAdd; 同样没有反应

    请问监测容器内的程序,需要如何配置?

    image.png

    PNG, 12.0 KB, uploaded by SunnySun on 2026年5月12日.

    image.png

    PNG, 60.8 KB, uploaded by SunnySun on 2026年5月12日.

    image.png

    PNG, 189.2 KB, uploaded by SunnySun on 2026年5月12日.

  • arrow_forward

    Thread has been moved from 公共.

    • By shuai_chen on 2026年5月13日 10:33.
  • link
    shuai_chen
    Members 460 posts
    2026年5月13日 10:39 2026年5月13日 10:39
    link

    尊敬的开发者您好,请参考developer.metax-tech.com/forum/t/fa-tie-qian-bi-kan-jing-xiang-shi-yong-wen-ti-ti-wen-mo-ban/267/ 给出详细命令以及相关日志

  • link
    SunnySun
    Members 14 posts
    2026年5月13日 12:23 2026年5月13日 12:23
    link

    1.服务器厂家:浪潮
    2.沐曦GPU型号: MetaX C500
    3.操作系统内核版本:6.8.0-53-generic
    4.是否开启CPU虚拟化:已开启
    5.mx-smi回显:
    mx-smi version: 2.2.12
    Kernel Mode Driver Version: 3.6.11
    MACA Version: 3.5.3.18
    BIOS Version: 1.31.1.0

    Attached GPUs: 8
    +---------------------------------------------------------------------------------+
    | GPU Name | Bus-id | Temp | Pwr:Usage/Cap | Memory-Usage | State |
    |================|===============|======|===============|==============|=========|
    | 0 MetaX C500 | 0000:11:00.0 | 45C | 60W / 350W | 859/65536 MB | Available|
    | 1 MetaX C500 | 0000:12:00.0 | 50C | 67W / 350W | 859/65536 MB | Available|
    | 2 MetaX C500 | 0000:13:00.0 | 51C | 66W / 350W | 859/65536 MB | Available|
    | 3 MetaX C500 | 0000:15:00.0 | 46C | 63W / 350W | 859/65536 MB | Available|
    | 4 MetaX C500 | 0000:3e:00.0 | 51C | 85W / 350W | 1307/65536 MB| Available|
    | 5 MetaX C500 | 0000:3f:00.0 | 48C | 63W / 350W | 859/65536 MB | Available|
    | 6 MetaX C500 | 0000:40:00.0 | 80C | 220W / 350W | 63680/65536MB| Available|
    | 7 MetaX C500 | 0000:41:00.0 | 78C | 226W / 350W | 63680/65536MB| Available|
    +---------------------------------------------------------------------------------+
    6.docker info回显:

    Client: Docker Engine - Community
     Version:    29.1.4
     Context:    default
     Debug Mode: false
     Plugins:
      buildx: Docker Buildx (Docker Inc.)
        Version:  v0.30.1
        Path:     /usr/libexec/docker/cli-plugins/docker-buildx
      compose: Docker Compose (Docker Inc.)
        Version:  v5.0.1
        Path:     /usr/libexec/docker/cli-plugins/docker-compose
    
    Server:
     Containers: 59
      Running: 22
      Paused: 0
      Stopped: 37
     Images: 44
     Server Version: 29.1.4
     Storage Driver: overlayfs
      driver-type: io.containerd.snapshotter.v1
     Logging Driver: json-file
     Cgroup Driver: systemd
     Cgroup Version: 2
     Plugins:
      Volume: local
      Network: bridge host ipvlan macvlan null overlay
      Log: awslogs fluentd gcplogs gelf journald json-file local splunk syslog
     CDI spec directories:
      /etc/cdi
      /var/run/cdi
     Swarm: inactive
     Runtimes: io.containerd.runc.v2 runc
     Default Runtime: runc
     Init Binary: docker-init
     containerd version: dea7da592f5d1d2b7755e3a161be07f43fad8f75
     runc version: v1.3.4-0-gd6d73eb8
     init version: de40ad0
     Security Options:
      apparmor
      seccomp
       Profile: builtin
      cgroupns
     Kernel Version: 6.8.0-53-generic
     Operating System: Ubuntu 24.04.3 LTS
     OSType: linux
     Architecture: x86_64
     CPUs: 224
     Total Memory: 1007GiB
     ID: 1f93fd3c-81e2-4076-a6d1-327b53156bf8
     Docker Root Dir: /var/lib/docker
     Debug Mode: false
     Experimental: false
    

    7.镜像版本:cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64
    8.启动容器命令:

    docker run -d \
      --name mcprofiler_test \
      --privileged \
      --network host \
      --shm-size 64m \
      -v /data1:/data1 \
      -v /data2:/data2 \
      -v /data1/test:/workspace \
      -v /data1/cuda-13.2:/usr/local/cuda \
      -v /opt/maca-3.5.3/tools:/tools \
      cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 \
      /bin/bash
    

    9.容器内执行程序的命令:
    cd /workspace/vectorAdd
    ./vectorAdd
    二、问题现象
    如上面的描述所示,无其他日志

  • link
    shuai_chen
    Members 460 posts
    2026年5月13日 14:18 2026年5月13日 14:18
    link

    尊敬的开发者您好,docker run参数请加-it,--shme-size改为100g尝试

  • link
    SunnySun
    Members 14 posts
    2026年5月13日 14:23 2026年5月13日 14:23
    link

    请问host端的报错是什么问题?应该如何修改呢?

    @SunnySun has written:

    使用maca-3.5.3,下载的mcProfiler工具包也是3.5.3
    在host端进行测试
    在host端编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在host端执行./vectorAdd也可运行成功

    采用如下方式配置mcProfiler,基本信息为,使用mcProfiler未采集到信息(有报错),每一个Execute Loop都完成了。请问报错信息指的是什么?是哪里配置有问题吗?

  • link
    Shaochi_Wu
    Members 9 posts
    2026年5月13日 14:31 2026年5月13日 14:31
    link

    mcProfiler根路径下有profiler.log,请提供下

  • link
    SunnySun
    Members 14 posts
    2026年5月13日 15:08 2026年5月13日 15:08
    link

    文件中是进行host端测试时产生的log

    此外,根据您的建议,重新创建了容器,命令如下:

    docker run -itd --privileged=true --security-opt apparmor=unconfined --net=host --ipc=host --shm-size=100g --device=/dev/mxcd --device=/dev/dri -v /data1:/data1 -v /data2:/data2 -v /data1/test:/workspace -v /data/data_shared/cuda-13.2:/usr/local/cuda -v /opt/maca-3.5.3/tools:/tools --name mcprofiler_test -w=/workspace cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 /bin/bash

    使用这里描述的配置,结果仍然和引用中描述的相同

    @SunnySun has written:

    想监测容器里的程序,mcProfiler工具没有反应,
    在容器中编译了vectorAdd.cpp为可执行文件vectorAdd,编译时Makefile中添加了-lmcToolsExt,在容器内执行./vectorAdd也可运行成功

    具体配置如下:

    此外,也尝试了将Work Directory设置为host端的目录,cmd line增加了cd /workspace/vectorAdd; 同样没有反应

    请问监测容器内的程序,需要如何配置?

    insert_drive_file
    profiler.log

    Text, 19.9 KB, uploaded by SunnySun on 2026年5月13日.

  • link
    Shaochi_Wu
    Members 9 posts
    2026年5月13日 15:41 2026年5月13日 15:41
    link

    log没有执行内容,用执行过perf操作的路径下的log

  • link
    SunnySun
    Members 14 posts
    2026年5月13日 16:33 2026年5月13日 16:33
    link

    不好意思,刚刚不同路径下的两个mcProfiler工具似乎互相影响到了,如下为重新运行后的文件

    insert_drive_file
    profiler.log

    Text, 438.8 KB, uploaded by SunnySun on 2026年5月13日.

  • link
    Shaochi_Wu
    Members 9 posts
    2026年5月13日 16:45 2026年5月13日 16:45
    link

    因为某些原因(防火墙之类)maca的rpc端口被禁了。
    解决办法:先开放一个非常用端口p,在perf_exec界面点加号添加一个环境变量MCTX_TARGET_RPCSRV_PORT,值为先前开放的端口p

  • link
    SunnySun
    Members 14 posts
    2026年5月13日 19:08 2026年5月13日 19:08
    link
    @Shaochi_Wu has written:

    因为某些原因(防火墙之类)maca的rpc端口被禁了。
    解决办法:先开放一个非常用端口p,在perf_exec界面点加号添加一个环境变量MCTX_TARGET_RPCSRV_PORT,值为先前开放的端口p

    使用这个方法,将host端程序监测出错的问题解决了,但是容器内的程序还是未监测到,
    创建容器的命令:

    docker run -itd --privileged=true --security-opt apparmor=unconfined --net=host --ipc=host --shm-size=100g --device=/dev/mxcd --device=/dev/dri -v /data1:/data1 -v /data2:/data2 -v /data1/test:/workspace -v /data/data_shared/cuda-13.2:/usr/local/cuda -v /opt/maca-3.5.3/tools:/tools --name mcprofiler_test -w=/workspace cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.18.0-maca.ai3.5.3.405-torch2.8-py312-ubuntu22.04-amd64 /bin/bash
    

    mcProfiler中的配置如下图所示

    想请教一下为什么容器内的程序还是没能获取到相应的信息?

    insert_drive_file
    profiler.log

    Text, 63.9 KB, uploaded by SunnySun on 2026年5月13日.

    image.png

    PNG, 86.9 KB, uploaded by SunnySun on 2026年5月13日.

  • link
    Shaochi_Wu
    Members 9 posts
    2026年5月14日 10:00 2026年5月14日 10:00
    link

    日志看起来还是不太全。重启下mcProfiler,执行下这次perf,连日志和docker inspect mcprofiler_test的结果一起发下,谢谢

  • link
    SunnySun
    Members 14 posts
    2026年5月14日 10:52 2026年5月14日 10:52
    link

    您好,重新执行了一下,大概等待了15分钟,GUI界面中Usage Time 一直为0s

    insert_drive_file
    profiler_docker.log

    Text, 114.1 KB, uploaded by SunnySun on 2026年5月14日.

    insert_drive_file
    docker_inspect_mcprofiler_test.json

    Text, 8.8 KB, uploaded by SunnySun on 2026年5月14日.

  • link
    Shaochi_Wu
    Members 9 posts
    2026年5月14日 11:12 2026年5月14日 11:12
    link

    docker在v28版本开始对inspect接口有修改,目前mcProfiler最大支持的仍然是v27版本,需要等新版本支持,感谢反馈

arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago