MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

wanglifeng

  • Members
  • Joined 2025年9月16日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

wanglifeng has posted 12 messages.

  • See post chevron_right
    wanglifeng
    Members
    多机通信问题 已解决 2026年4月30日 12:26

    多个卡带宽太低了,即使只用一个网卡 结果也是一样的

  • See post chevron_right
    wanglifeng
    Members
    多机通信问题 已解决 2026年4月30日 11:56

    结果:
    MCCL INFO Connected all trees

        1024           256     float     sum      -1     47.37    0.02    0.04      0     44.43    0.02    0.04      0
    
        2048           512     float     sum      -1     43.77    0.05    0.09      0     43.64    0.05    0.09      0
    
        4096          1024     float     sum      -1     46.11    0.09    0.17      0     47.15    0.09    0.16      0
    
        8192          2048     float     sum      -1     47.47    0.17    0.32      0     45.45    0.18    0.34      0
    
       16384          4096     float     sum      -1     48.26    0.34    0.64      0     54.89    0.30    0.56      0
    
       32768          8192     float     sum      -1     51.41    0.64    1.20      0     56.86    0.58    1.08      0
    
       65536         16384     float     sum      -1    131.29    0.50    0.94      0    129.71    0.51    0.95      0
    
      131072         32768     float     sum      -1    132.38    0.99    1.86      0    133.09    0.98    1.85      0
    
      262144         65536     float     sum      -1    136.61    1.92    3.60      0    138.39    1.89    3.55      0
    
      524288        131072     float     sum      -1    151.87    3.45    6.47      0    160.54    3.27    6.12      0
    
     1048576        262144     float     sum      -1    190.91    5.49   10.30      0    175.86    5.96   11.18      0
    
     2097152        524288     float     sum      -1    387.85    5.41   10.14      0    216.03    9.71   18.20      0
    
     4194304       1048576     float     sum      -1    291.62   14.38   26.97      0    286.74   14.63   27.43      0
    
     8388608       2097152     float     sum      -1    426.88   19.65   36.85      0    430.51   19.49   36.54      0
    
    16777216       4194304     float     sum      -1    670.59   25.02   46.91      0    753.13   22.28   41.77      0
    
    33554432       8388608     float     sum      -1   1503.81   22.31   41.84      0   1541.25   21.77   40.82      0
    
    67108864      16777216     float     sum      -1   2721.40   24.66   46.24      0   2719.98   24.67   46.26      0
    

    134217728 33554432 float sum -1 5417.88 24.77 46.45 0 5400.53 24.85 46.60 0

    268435456 67108864 float sum -1 10798.70 24.86 46.61 0 10757.76 24.95 46.79 0

    536870912 134217728 float sum -1 21586.39 24.87 46.63 0 21569.71 24.89 46.67 0

    1073741824 268435456 float sum -1 43066.86 24.93 46.75 0 43017.88 24.96 46.80 0

    MCCL INFO comm 0x7f279eec4010 rank 14 nranks 16 cudaDev 6 busId e3000 - Destroy COMPLETE

    458098:458098 [6] MCCL INFO comm 0x7f12d7f12010 rank 6 nranks 16 cudaDev 6 busId e3000 - Destroy COMPLETE

    :458092 [0] MCCL INFO comm 0x7f7a5329c010 rank 0 nranks 16 cudaDev 0 busId 23000 - Destroy COMPLETE

    [4] MCCL INFO comm 0x7fb504712010 rank 12 nranks 16 cudaDev 4 busId a3000 - Destroy COMPLETE

    Out of bounds values : 0 OK

    Avg bus bandwidth : 20.1137

    脚本:

    !/bin/bash

    set -euo pipefail

    MACA_PATH=/opt/maca

    HOST_IP=${HOST_IP:-"机器信息"}

    IP_MASK=${IP_MASK:-"172.16.1.0/24"}

    GPU_NUM=${GPU_NUM:-64}

    IB_PORT="mlx5_1,mlx5_2,mlx5_3,mlx5_4,mlx5_5,mlx5_6,mlx5_7"

    GID_INDEX=${GID_INDEX:-3}

    TEST_DIR=/opt/maca/samples/mccl_tests/perf/mccl_perf

    BENCH_NAMES=${BENCH_NAMES:-"all_reduce_perf"}

    PERF_ENV="-x FORCE_ACTIVE_WAIT=2"

    LIB_PATH_ENV="-x LD_LIBRARY_PATH=${MACA_PATH}/lib:${MACA_PATH}/ompi/lib"

    ENV_VAR="\

    -x OMPI_ALLOW_RUN_AS_ROOT=1 \

    -x OMPI_ALLOW_RUN_AS_ROOT_CONFIRM=1 \

    -x MCCL_IB_HCA=${IB_PORT} \

    -x MCCL_IB_GID_INDEX=${GID_INDEX} \

    -x MCCL_SOCKET_IFNAME=eth10 \ #尝试增加多个mlx卡 通信也无效

    -x MCCL_CROSS_NIC=0 \ # 0,1尝试也无效

    ${PERF_ENV} \

    ${LIB_PATH_ENV}"

    MPI_PROCESS_NUM=${GPU_NUM}

    MPI_RUN_OPT="\

    -mca btl_tcp_if_include ${IP_MASK} \

    -mca oob_tcp_if_include ${IP_MASK} \

    -mca pml ^ucx \

    -mca osc ^ucx \

    -mca btl ^openib"

    for BENCH in ${BENCH_NAMES}; do

    echo "The test is ${BENCH}, the maca version is $(realpath ${MACA_PATH})"

    echo "HOST_IP=${HOST_IP}"

    echo "IP_MASK=${IP_MASK}"

    echo "GPU_NUM=${GPU_NUM}"

    echo "IB_PORT=${IB_PORT}"

    echo "GID_INDEX=${GID_INDEX}"

    ${MACA_PATH}/ompi/bin/mpirun \

    --allow-run-as-root \
    
    -np ${MPI_PROCESS_NUM} \
    
    ${MPI_RUN_OPT} \
    
    -host ${HOST_IP} \
    
    ${ENV_VAR} \
    
    ${TEST_DIR}/${BENCH} \
    
    -b 1K -e 1G -d float -f 2 -g 1 -n 10
    

    done

  • See post chevron_right
    wanglifeng
    Members
    多机通信问题 已解决 2026年4月30日 11:40

    所有卡的测试结果类似 ,

  • See post chevron_right
    wanglifeng
    Members
    多机通信问题 已解决 2026年4月30日 11:33

    服务器信息:h3c
    gpu:mx c550
    cpu:海光
    rdma网卡:8 * mlx
    问题描述:
    无论如何增加HCA高性能网卡,多机allreduce等最后带宽只打满了一张网卡,也就是全部都走了一个网卡,MCCL_CROSS_NIC也分别修改过0 1 没有效果
    MCCL_IB_HCA=mlx5_0,mlx5_1,.....
    rdma网络正常,,网卡间通信正常,所有机器的网卡1属于子网a,网卡2属于子网b,一一对应,调整了很多参数还是无法做到让allreduce测试走多个网卡

  • See post chevron_right
    wanglifeng
    Members
    沐曦是否有具身智能相关的软件栈和资料 已解决 2026年4月24日 10:22

    我没看到有开启个人主题的地方 ,只有公共主题和一些技术性的主题

  • See post chevron_right
    wanglifeng
    Members
    沐曦是否有具身智能相关的软件栈和资料 已解决 2026年4月24日 10:07

    沐曦是否有具身智能相关的软件栈和资料,目前在社区没查到相关的资料,我们希望基于沐曦卡进行相关机器人的解决方案构建

  • See post chevron_right
    wanglifeng
    Members
    关于沐曦sglang镜像对diffusion支持的提问 已解决 2026年2月9日 11:06

    沐曦提供的sglang版本是否支持编译下载SGLang-diffusion,如果不支持后续是否有计划开放支持sglang-diffusion的版本
    感谢

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 19:07

    能否给下多机启动的命令 或者多机启动是否需要有注意的点 避免启动失败

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 19:00

    您好 ,是单机8卡启动

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 18:56

    服务器:
    h3c服务器
    芯片:
    c550
    操作系统:
    PRETTY_NAME="Ubuntu 22.04.5 LTS"
    NAME="Ubuntu"
    VERSION_ID="22.04"
    VERSION="22.04.5 LTS (Jammy Jellyfish)"
    VERSION_CODENAME=jammy
    ID=ubuntu
    ID_LIKE=debian
    HOME_URL="www.ubuntu.com/"
    SUPPORT_URL="help.ubuntu.com/"
    BUG_REPORT_URL="bugs.launchpad.net/ubuntu/"
    PRIVACY_POLICY_URL="www.ubuntu.com/legal/terms-and-policies/privacy-policy"
    UBUNTU_CODENAME=jammy
    启动的模型:qwen3-vl-235b
    镜像启动:docker run \
    --network=host \
    --device /dev/dri:/dev/dri \
    --device /dev/mxcd:/dev/mxcd \
    --group-add video \
    --runtime=runc \
    --detach=true \
    --shm-size 100gb \
    --ulimit memlock=-1 \
    -it \
    cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.12.0-maca.ai3.3.0.204-torch2.8-py312-ubuntu22.04-amd64
    模型启动命令:vllm serve qwen3-vl-235b-a22 --tensor-parallel-size 8 --max-model-len 1024 --enable-chunked-prefill --max-num-batched-tokens 2048 --trust-remote-code --gpu-memory-utilization 0.80 --mm-processor-cache-gb 0

    看样子是卡在多卡通信如何解决

  • See post chevron_right
    wanglifeng
    Members
    基于megatron-lm镜像进行模型转换的时候报错 已解决 2025年9月16日 17:18

    mxc500 Ubuntu 22.04. docker 27.5.1
    使用镜像megatron-lm:maca.ai3.0.0.5-torch2.4-py310-ubuntu22.04-amd64
    启动命令
    docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video -
    -network=host --name megatron_lm --security-opt seccomp=unconfined --
    security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -
    v /data:/data
    我理解我的问题和基础的环境均无关,是否是该镜像编译的时候少安装包了,导致镜像中执行脚本报错

  • See post chevron_right
    wanglifeng
    Members
    基于megatron-lm镜像进行模型转换的时候报错 已解决 2025年9月16日 17:03

    在使用/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen/进行模型转换时报错
    转换的模型为qwen3-8b ,但是目前看导入包的时候就报错了
    使用的镜像megatron-lm:maca.ai3.0.0.5-torch2.4-py310-ubuntu22.04-amd64
    hf2mcore_qwen2_dense_and_moe_gqa.py
    File "/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen/hf2mcore_qwen2_dense_and_moe_gqa.py", line 12, in <module>
    from transformers.modeling_utils import WEIGHTS_INDEX_NAME, WEIGHTS_NAME, shard_checkpoint, load_sharded_checkpoint
    ImportError: cannot import name 'shard_checkpoint' from 'transformers.modeling_utils' (/opt/conda/lib/python3.10/site-packages/transformers/modeling_utils.py)
    E0916 16:49:29.393000 140209256093504 torch/distributed/elastic/multiprocessing/api.py:833] failed (exitcode: 1) local_rank: 0 (pid: 407) of binary: /opt/conda/bin/python3.10

  • 沐曦开发者论坛
powered by misago