MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 解决中

模型运行过程中异常终止,且再次重启一直报错无法启动

mukewang
2026年5月22日
chat_bubble_outline 11
  • link
    mukewang
    Members 13 posts
    2026年5月22日 13:51 2026年5月22日 13:51
    link

    一、软硬件信息
    1.服务器厂家:浪潮信息:
    2.沐曦GPU型号:单张沐曦曦思N260
    3.操作系统内核版本:4.19.90-89.11.v2401.ky10.x86_64
    4.是否开启CPU虚拟化:是
    5.mx-smi回显:
    mx-smi version: 2.3.1

    =================== MetaX System Management Interface Log ===================
    Timestamp : Mon May 11 10:18:11 2026

    Attached GPUs : 1
    +---------------------------------------------------------------------------------+
    | MX-SMI 2.3.1 Kernel Mode Driver Version: 3.7.11 |
    | MACA Version: 3.7.0.38 BIOS Version: 1.31.1.0 |
    |------------------+-----------------+---------------------+----------------------|
    | Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M |
    | Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State |
    |==================+=================+=====================+======================|
    | 0 MetaX N260 | 0 Off | 0000:c1:00.0 | 0% Disabled |
    | 60W / 225W | 59C P9 | 52895/65536 MiB | Available |
    +------------------+-----------------+---------------------+----------------------+

    +---------------------------------------------------------------------------------+
    | Process: |
    | GPU PID Process Name GPU Memory |
    | Usage(MiB) |
    |=================================================================================|
    | 0 3760427 VLLM::EngineCor 52228 |
    +---------------------------------------------------------------------------------+
    6.docker info回显:
    Client:
    Version: 29.3.1
    Context: default
    Debug Mode: false
    Plugins:
    compose: Docker Compose (Docker Inc.)
    Version: v2.24.6
    Path: /usr/local/lib/docker/cli-plugins/docker-compose

    Server:
    Containers: 25
    Running: 24
    Paused: 0
    Stopped: 1
    Images: 56
    Server Version: 29.3.1
    Storage Driver: overlayfs
    driver-type: io.containerd.snapshotter.v1
    Logging Driver: json-file
    Cgroup Driver: cgroupfs
    Cgroup Version: 1
    Plugins:
    Volume: local
    Network: bridge host ipvlan macvlan null overlay
    Log: awslogs fluentd gcplogs gelf journald json-file local splunk syslog
    CDI spec directories:
    /etc/cdi
    /var/run/cdi
    Swarm: inactive
    Runtimes: io.containerd.runc.v2 metax runc
    Default Runtime: runc
    Init Binary: docker-init
    containerd version: 301b2dac98f15c27117da5c8af12118a041a31d9
    runc version: v1.3.4-0-gd6d73eb
    init version: de40ad0
    Security Options:
    seccomp
    Profile: builtin
    Kernel Version: 4.19.90-89.11.v2401.ky10.x86_64
    Operating System: Kylin Linux Advanced Server V10 (Halberd)
    OSType: linux
    Architecture: x86_64
    CPUs: 64
    Total Memory: 61.55GiB
    Name: localhost.localdomain
    ID: f92e3bfc-06d2-4441-886f-8b48bf0e6b27
    Docker Root Dir: /var/lib/docker
    Debug Mode: false
    Experimental: false
    Insecure Registries:
    ::1/128
    127.0.0.0/8
    Live Restore Enabled: false
    Product License: Community Engine
    Firewall Backend: iptables

    WARNING: Support for cgroup v1 is deprecated and planned to be removed by no later than May 2029 (github.com/moby/moby/issues/51111)
    7.镜像版本:
    vllm-metax:0.19.0-maca.ai3.5.3.502-torch2.8-py312-kylinv11-amd64
    8.启动容器命令:
    metax-docker run -itd --gpus="[<sgpu:${GPU_UUID}>]" --group-add video --network=host --name llm-model --entrypoint bash --restart unless-stopped --shm-size=32g --security-opt seccomp=unconfined --security-opt apparmor=unconfined --ulimit memlock=-1 -v /home/models:/models cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.19.0-maca.ai3.5.3.502-torch2.8-py312-kylinv11-amd64 -c "/models/run_model.sh"
    9.容器内执行命令:
    VLLM_USE_V1=1 /opt/conda/bin/vllm serve /models/Qwen3-32B-AWQ --max-num-seqs 8 --async-scheduling --host 0.0.0.0 --port 9901 --served-model-name qwen3 -tp 1 --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 8192 --max-num-batched-tokens 8192 --reasoning-parser qwen3 --no-enable-prefix-caching

    二、问题现象
    使用vllm运行模型时,模型出错异常停止,且无法重新启动,重启时提示memory access offset is negative, out of bounds, or misaligned in kernel,一直无法启动,请问该如何解决?

    报错日志如附件所示

    insert_drive_file
    dmesg.txt

    Text, 194.1 KB, uploaded by mukewang on 2026年5月22日.

  • link
    shuai_chen
    Members 458 posts
    2026年5月22日 14:00 2026年5月22日 14:00
    link

    尊敬的开发者您好,请先不使用SGPU,使用整张卡尝试推理。

  • arrow_forward

    Thread has been moved from 产品&运维.

    • By shuai_chen on 2026年5月22日 14:00.
  • link
    mukewang
    Members 13 posts
    2026年5月22日 15:09 2026年5月22日 15:09
    link

    已尝试过不使用SGPU,使用整张卡也出现过一样的问题

  • link
    shuai_chen
    Members 458 posts
    2026年5月22日 18:22 2026年5月22日 18:22
    link

    尊敬的开发者您好,请尝试以下命令
    容器内启动命令

    python -m vllm.entrypoints.openai.api_server \
    --model=/xxx/Qwen/Qwen3-32B-AWQ \
    --trust-remote-code \
    --gpu-memory-uti1ization 0.95 \
    --served-model-name "Qwen3-32B"\
    --tensor-parallel-size 1 \
    --max-num-batched-tokens 8192\
    --max-model-1en 8192
    --dtype "bfloat16"\
    --host 0.0.0.0 \
    --port 8000
    
  • link
    mukewang
    Members 13 posts
    2026年5月22日 20:33 2026年5月22日 20:33
    link

    使用该命令依然报相同的错误,且一段时间后出现mx-smi找不到显卡的情况,但是lspci中可以查看到设备存在,重启后mx-smi命令依然找不到显卡,在多次重启后恢复,mx-smi回显正常,但是模型依然报相同的错误无法启动,该问题在上周五也出现过一次,具体过程为:1.模型运行正常;2.模型出现上述报错,且重启、更新驱动均无法解决;3.模型启动过程中在加载模型前一直卡住(即未到报错部分);4.mx-smi显示找不到设备。是否显卡存在保护机制,一段时间报错后出现自保护关闭?硬件层面已经和硬件厂商排查过,硬件无问题

    79ae91168f9340ad17939aae4242aecf.png

    PNG, 5.1 KB, uploaded by mukewang on 2026年5月22日.

    8f01e0aa8a23a48faf5cbce303002fbe.png

    PNG, 5.3 KB, uploaded by mukewang on 2026年5月22日.

  • link
    shuai_chen
    Members 458 posts
    2026年5月22日 20:35 2026年5月22日 20:35
    link

    尊敬的开发者您好,请裸金属执行

    dmesg -T | grep -i err
    
  • link
    mukewang
    Members 13 posts
    2026年5月22日 20:38 2026年5月22日 20:38
    link

    dmesg -T | grep -i err 命令返回如附件所示

    insert_drive_file
    dmesg.txt

    Text, 365.7 KB, uploaded by mukewang on 2026年5月22日.

  • link
    shuai_chen
    Members 458 posts
    2026年5月22日 20:39 2026年5月22日 20:39
    link

    尊敬的开发者您好,GPU存在问题,请关机断电,重新插拔。

  • link
    mukewang
    Members 13 posts
    2026年5月22日 20:50 2026年5月22日 20:50
    link

    已经尝试过断电插拔显卡,依然存在问题,是否是硬件故障?插拔包括图中红圈部分,分别是pcie以及显卡供电

    image.png

    PNG, 1.8 MB, uploaded by mukewang on 2026年5月22日.

  • link
    shuai_chen
    Members 458 posts
    2026年5月22日 20:54 2026年5月22日 20:54
    link

    尊敬的开发者您好,请通过GPU购买渠道申请售后支持

  • link
    mukewang
    Members 13 posts
    2026年5月22日 20:55 2026年5月22日 20:55
    link

    是更换GPU吗

  • link
    mukewang
    Members 13 posts
    2026年5月22日 21:35 2026年5月22日 21:35
    link

    是否与系统内核不匹配有关,当前系统为麒麟V10 SP3,我看驱动里面只有麒麟V10 SP2与麒麟V11,该原因是否会导致问题出现?

arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago