MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in

cookies

  • Members
  • Joined 2025年7月25日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

cookies has posted 1 message.

  • See post chevron_right
    cookies
    Members
    偶发容器内卡被占用显存,看不到具体pid和使用率 信息沟通 2025年7月25日 11:31

    如题,偶发容器内看到卡被占用显存,看不到具体 pid 和使用率

    环境信息如下:
    节点采用了虚拟化卡,8张切分为16张, mxvbios-1.23.1.0-723-C500-VF.bin
    驱动版本
    MX-SMI 2.2.1 Kernel Mode Driver Version: 2.9.8 |
    | MACA Version: 2.31.0.6 BIOS Version: 1.23.1.0
    操作系统 Ubuntu 20.04.4 LTS
    内核版本 Linux 5.15.0-58-generic x86_64
    k8s 版本 v1.30.5
    containerd 版本 1.7.23

    相关截图如下:
    mx-smi 命令, 容器这边能看到 显存被占用 ,但是没有利用率。容器中使用 mx-smi --show-memory --show -vpu 可以看到显存被占用。

    image.png

    根据卡id, 所在节点能够看到卡被占用显存

    image.png

    image.png

    所用到的容器镜像
    cr.metax-tech.com/public-ai-release/c500/xtuner:maca2.31.0.3-torch2.4-py310-ubuntu22.04-amd64
    cr.metax-tech.com/public-ai-release/c500/torch:2.1-py310-mc2.31.0.4-ubuntu22.04

  • 沐曦开发者论坛
powered by misago