MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

caofang

  • Members
  • Joined 2026年1月15日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

caofang has posted 6 messages.

  • See post chevron_right
    caofang
    Members
    [mcTracer使用问题] --attach 失败,错误:Can not find port file!!! 已解决 2026年3月24日 17:52

    可以正常训练,训练部分输入如下:
    50 loss=0.142824187874794 tgs (tokens/gpu/second)=1379.59 tgs/last_tgs_1=1379.6 tgs/tgs_all=1370.23 tgs/tgs_avg=1371.04 tgs/tgs_SMA=1374.72 tgs/last_tgs_10=1373.6 tgs/last_tgs_50=1370.04 lr=8.707123771204882e-05 loss_scale=65536.0 grad_norm={'0_default': 2.7461187543313974} micro_num=32 num_consumed_tokens=53477376 inf_nan_skip_batches=0 num_samples_in_batch=149 largest_length=2048 largest_batch=8 smallest_batch=3 adam_beta2=0.95 fwd_bwd_time=94.83 acc=0.9835 perplexity=1.1596 acc/en=0.0 acc/cn=0.0 acc/code=0.0 tokens/en=0 tokens/cn=0 tokens/code=0 loss_from_metric=0.1479 loss/en=nan loss/cn=nan loss/code=nan

  • See post chevron_right
    caofang
    Members
    [mcTracer使用问题] --attach 失败,错误:Can not find port file!!! 已解决 2026年3月24日 10:29

    您好,我详细描述下完整使用过程:
    1.环境准备:
    硬件:单机8卡沐曦 C550 服务器,已部署 MACA 3.3.0 驱动
    容器镜像:从沐曦开发者平台下载 internlm:0.2.1-maca.ai3.3.0.10-torch2.4-py310-ubuntu22.04-amd64
    2.在容器中执行:
    先启动模型预训练脚本:./pretrain_internlm-7b_8gpu.sh
    然后查询进程号:通过 ps -ef |grep torchrun 获取到进程 PID 为 11435
    开启mcTracer: mcTracer --attach 11435 立即出现报错:Can not open port file / Can not find port file,attach 失败。
    3.已做排查
    确认 PID 11435 是正在运行的 MCCL 测试进程,进程未退出
    以 root 权限执行,排除权限问题
    烦请答复,感谢~

  • See post chevron_right
    caofang
    Members
    [mcTracer使用问题] --attach 失败,错误:Can not find port file!!! 已解决 2026年3月24日 09:09

    您好,我在使用 mcTracer 工具 attach 到沐曦训练进程时遇到了报错,具体信息如下:
    (Tracer): 08:57:59 [ERROR] Can not open port file.
    (Tracer): 08:57:59 [ERROR] Failed to open port file , error: No such file or directory, errno: 2
    ……
    (Tracer): 08:58:01 [ERROR] Failed to open port file , error: No such file or directory, errno: 2
    (Tracer): 08:58:01 [ERROR] Can not find port file!!!
    (Tracer): 08:58:01 [ERROR] Get port failed!!!
    请问:
    1.mcTracer attach 时依赖的port file是什么?由谁生成、存放在哪里?
    2.目标进程需要做什么配置才能生成 port file?
    烦请解答,感谢

  • See post chevron_right
    caofang
    Members
    【mcTracer 使用问题】maca-2.29.0.19 版本执行 --attach 报错,提示缺少 bt_register 文件 已解决 2026年3月20日 09:58

    您好,我在使用沐曦 MACA 工具链时遇到如下问题:
    1.环境版本:
    MACA 版本:maca-2.29.0.19
    场景:单机 8 卡训练 InternLM 模型,尝试使用 mcTracer 进行性能瓶颈分析
    2.问题现象:
    执行 mcTracer --attach <pid> 命令时,报错如下:
    Legacy 'bt_register'.
    (Tracer): 09:19:42 [INFO ] Tracer startup
    execvpe: No such file or directory
    (Tracer): 09:19:42 [INFO ] User process ends execution.
    经 find /opt/maca-2.29.0.19 -name "bt_register" 搜索,系统中不存在该可执行文件。
    3.对比文档发现:
    官网 mcTracer 使用手册仅针对 MACA 3.3.0.x / 3.5.3.x 版本,未收录 2.29.x 版本的相关说明,因此想确认:
    ①maca-2.29.0.19 中的 mcTracer 是否为早期未成熟版本,本身存在依赖缺失问题?
    ②若 2.29 版本 mcTracer 暂不可用,是否需要升级到 MACA 3.x 才能正常使用 --attach 功能?
    烦请协助解答,谢谢!

  • See post chevron_right
    caofang
    Members
    mcTracer无法正常使用 已解决 2026年3月20日 09:50

    您好,我这边使用的是 maca-2.29.0.19 版本,在使用 mcTracer --attach <pid> 时遇到报错:
    Legacy 'bt_register'.
    (Tracer): 09:16:04 [INFO ] Tracer startup
    execvpe: No such file or directory
    (Tracer): 09:16:04 [INFO ] User process ends execution.
    系统中找不到 bt_register 可执行文件,find 也搜不到。
    对比官网文档,mcTracer 对应的是 MACA 3.3.0 / 3.5.3 版本,
    想确认:
    1)maca-2.29.0.19 中的 mcTracer 是否本身未完善、暂不可用?
    2)是否需要升级到 MACA 3.x 才能正常使用 attach 功能?
    我的场景:单机 8 卡训练 InternLM 模型,希望学习使用性能分析工具mcTracer定位训练瓶颈的方法。

  • See post chevron_right
    caofang
    Members
    模型适配咨询 已解决 2026年3月10日 17:24

    您好,我需要获取沐曦曦云 C 系列 GPU(C500/C550/C588)在 MXMACA 3.3.0.X 版本下,支持训练的模型完整清单,请明确标注:
    1.模型名称
    2.支持的训练类型(全量预训练 / SFT/LoRA)
    3.对应硬件型号要求
    4.是否有配套训练部署文档
    感谢提供清单或下载链接。

  • 沐曦开发者论坛
powered by misago