MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 已解决

[mcTracer使用问题] --attach 失败,错误:Can not find port file!!!

caofang
2026年3月24日
chat_bubble_outline 5
  • link
    caofang
    Members 6 posts
    2026年3月24日 09:09 2026年3月24日 09:09
    link

    您好,我在使用 mcTracer 工具 attach 到沐曦训练进程时遇到了报错,具体信息如下:
    (Tracer): 08:57:59 [ERROR] Can not open port file.
    (Tracer): 08:57:59 [ERROR] Failed to open port file , error: No such file or directory, errno: 2
    ……
    (Tracer): 08:58:01 [ERROR] Failed to open port file , error: No such file or directory, errno: 2
    (Tracer): 08:58:01 [ERROR] Can not find port file!!!
    (Tracer): 08:58:01 [ERROR] Get port failed!!!
    请问:
    1.mcTracer attach 时依赖的port file是什么?由谁生成、存放在哪里?
    2.目标进程需要做什么配置才能生成 port file?
    烦请解答,感谢

  • link
    shuai_chen
    Members 314 posts
    2026年3月24日 09:41 2026年3月24日 09:41
    link

    尊敬的开发者您好,请详细描述您的使用过程

  • link
    caofang
    Members 6 posts
    2026年3月24日 10:29 2026年3月24日 10:29
    link

    您好,我详细描述下完整使用过程:
    1.环境准备:
    硬件:单机8卡沐曦 C550 服务器,已部署 MACA 3.3.0 驱动
    容器镜像:从沐曦开发者平台下载 internlm:0.2.1-maca.ai3.3.0.10-torch2.4-py310-ubuntu22.04-amd64
    2.在容器中执行:
    先启动模型预训练脚本:./pretrain_internlm-7b_8gpu.sh
    然后查询进程号:通过 ps -ef |grep torchrun 获取到进程 PID 为 11435
    开启mcTracer: mcTracer --attach 11435 立即出现报错:Can not open port file / Can not find port file,attach 失败。
    3.已做排查
    确认 PID 11435 是正在运行的 MCCL 测试进程,进程未退出
    以 root 权限执行,排除权限问题
    烦请答复,感谢~

  • arrow_forward

    Thread has been moved from 产品&运维.

    • By shuai_chen on 2026年3月24日 11:11.
  • link
    shuai_chen
    Members 314 posts
    2026年3月24日 11:12 2026年3月24日 11:12
    link

    尊敬的开发者您好,在容器中执行:先启动模型预训练脚本:./pretrain_internlm-7b_8gpu.sh,是否正常训练,有loss日志打印

  • link
    caofang
    Members 6 posts
    2026年3月24日 17:52 2026年3月24日 17:52
    link

    可以正常训练,训练部分输入如下:
    50 loss=0.142824187874794 tgs (tokens/gpu/second)=1379.59 tgs/last_tgs_1=1379.6 tgs/tgs_all=1370.23 tgs/tgs_avg=1371.04 tgs/tgs_SMA=1374.72 tgs/last_tgs_10=1373.6 tgs/last_tgs_50=1370.04 lr=8.707123771204882e-05 loss_scale=65536.0 grad_norm={'0_default': 2.7461187543313974} micro_num=32 num_consumed_tokens=53477376 inf_nan_skip_batches=0 num_samples_in_batch=149 largest_length=2048 largest_batch=8 smallest_batch=3 adam_beta2=0.95 fwd_bwd_time=94.83 acc=0.9835 perplexity=1.1596 acc/en=0.0 acc/cn=0.0 acc/code=0.0 tokens/en=0 tokens/cn=0 tokens/code=0 loss_from_metric=0.1479 loss/en=nan loss/cn=nan loss/code=nan

  • link
    shuai_chen
    Members 314 posts
    2026年3月24日 17:55 2026年3月24日 17:55
    link

    尊敬的开发者您好,请您启动训练后执行mx-smi,mcTracer PID选择mx-smi显示的进程号

  • arrow_forward

    Thread has been moved from 解决中.

    • By shuai_chen on 2026年4月7日 13:31.
arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago