MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

wanglifeng

  • Members
  • Joined 2025年9月16日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

wanglifeng has posted 6 messages.

  • See post chevron_right
    wanglifeng
    Members
    关于沐曦sglang镜像对diffusion支持的提问 解决中 2026年2月9日 11:06

    沐曦提供的sglang版本是否支持编译下载SGLang-diffusion,如果不支持后续是否有计划开放支持sglang-diffusion的版本
    感谢

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 19:07

    能否给下多机启动的命令 或者多机启动是否需要有注意的点 避免启动失败

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 19:00

    您好 ,是单机8卡启动

  • See post chevron_right
    wanglifeng
    Members
    加载qwen3-vl-235b卡住问题求助 已解决 2026年2月2日 18:56

    服务器:
    h3c服务器
    芯片:
    c550
    操作系统:
    PRETTY_NAME="Ubuntu 22.04.5 LTS"
    NAME="Ubuntu"
    VERSION_ID="22.04"
    VERSION="22.04.5 LTS (Jammy Jellyfish)"
    VERSION_CODENAME=jammy
    ID=ubuntu
    ID_LIKE=debian
    HOME_URL="www.ubuntu.com/"
    SUPPORT_URL="help.ubuntu.com/"
    BUG_REPORT_URL="bugs.launchpad.net/ubuntu/"
    PRIVACY_POLICY_URL="www.ubuntu.com/legal/terms-and-policies/privacy-policy"
    UBUNTU_CODENAME=jammy
    启动的模型:qwen3-vl-235b
    镜像启动:docker run \
    --network=host \
    --device /dev/dri:/dev/dri \
    --device /dev/mxcd:/dev/mxcd \
    --group-add video \
    --runtime=runc \
    --detach=true \
    --shm-size 100gb \
    --ulimit memlock=-1 \
    -it \
    cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.12.0-maca.ai3.3.0.204-torch2.8-py312-ubuntu22.04-amd64
    模型启动命令:vllm serve qwen3-vl-235b-a22 --tensor-parallel-size 8 --max-model-len 1024 --enable-chunked-prefill --max-num-batched-tokens 2048 --trust-remote-code --gpu-memory-utilization 0.80 --mm-processor-cache-gb 0

    看样子是卡在多卡通信如何解决

  • See post chevron_right
    wanglifeng
    Members
    基于megatron-lm镜像进行模型转换的时候报错 已解决 2025年9月16日 17:18

    mxc500 Ubuntu 22.04. docker 27.5.1
    使用镜像megatron-lm:maca.ai3.0.0.5-torch2.4-py310-ubuntu22.04-amd64
    启动命令
    docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video -
    -network=host --name megatron_lm --security-opt seccomp=unconfined --
    security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -
    v /data:/data
    我理解我的问题和基础的环境均无关,是否是该镜像编译的时候少安装包了,导致镜像中执行脚本报错

  • See post chevron_right
    wanglifeng
    Members
    基于megatron-lm镜像进行模型转换的时候报错 已解决 2025年9月16日 17:03

    在使用/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen/进行模型转换时报错
    转换的模型为qwen3-8b ,但是目前看导入包的时候就报错了
    使用的镜像megatron-lm:maca.ai3.0.0.5-torch2.4-py310-ubuntu22.04-amd64
    hf2mcore_qwen2_dense_and_moe_gqa.py
    File "/workspace/Pai-Megatron-Patch/toolkits/model_checkpoints_convertor/qwen/hf2mcore_qwen2_dense_and_moe_gqa.py", line 12, in <module>
    from transformers.modeling_utils import WEIGHTS_INDEX_NAME, WEIGHTS_NAME, shard_checkpoint, load_sharded_checkpoint
    ImportError: cannot import name 'shard_checkpoint' from 'transformers.modeling_utils' (/opt/conda/lib/python3.10/site-packages/transformers/modeling_utils.py)
    E0916 16:49:29.393000 140209256093504 torch/distributed/elastic/multiprocessing/api.py:833] failed (exitcode: 1) local_rank: 0 (pid: 407) of binary: /opt/conda/bin/python3.10

  • 沐曦开发者论坛
powered by misago