MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 信息沟通

偶发容器内卡被占用显存,看不到具体pid和使用率

cookies
2025年7月25日
chat_bubble_outline 1
  • link
    cookies
    Members 1 post
    2025年7月25日 11:31 2025年7月25日 11:31
    link

    如题,偶发容器内看到卡被占用显存,看不到具体 pid 和使用率

    环境信息如下:
    节点采用了虚拟化卡,8张切分为16张, mxvbios-1.23.1.0-723-C500-VF.bin
    驱动版本
    MX-SMI 2.2.1 Kernel Mode Driver Version: 2.9.8 |
    | MACA Version: 2.31.0.6 BIOS Version: 1.23.1.0
    操作系统 Ubuntu 20.04.4 LTS
    内核版本 Linux 5.15.0-58-generic x86_64
    k8s 版本 v1.30.5
    containerd 版本 1.7.23

    相关截图如下:
    mx-smi 命令, 容器这边能看到 显存被占用 ,但是没有利用率。容器中使用 mx-smi --show-memory --show -vpu 可以看到显存被占用。

    image.png

    根据卡id, 所在节点能够看到卡被占用显存

    image.png

    image.png

    所用到的容器镜像
    cr.metax-tech.com/public-ai-release/c500/xtuner:maca2.31.0.3-torch2.4-py310-ubuntu22.04-amd64
    cr.metax-tech.com/public-ai-release/c500/torch:2.1-py310-mc2.31.0.4-ubuntu22.04

    image.png

    PNG, 346.9 KB, uploaded by cookies on 2025年7月25日.

    image.png

    PNG, 163.2 KB, uploaded by cookies on 2025年7月25日.

    image.png

    PNG, 257.7 KB, uploaded by cookies on 2025年7月25日.

  • arrow_forward

    Thread has been moved from 公共.

    • By Yuan_Tu on 2025年7月25日 11:53.
  • link
    shuai_chen
    Members 28 posts
    2025年7月25日 14:21 2025年7月25日 14:21
    link

    尊敬的开发者您好,请您联系此平台的相关工作人员进行排查。

  • arrow_forward

    Thread has been moved from 产品&运维.

    • By Yuan_Tu on 2025年7月30日 15:25.
arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago