GPU-Operator部署后使用hami调度的两个问题 | 已解决 | 沐曦开发者论坛

Cafba

2025年12月9日

chat_bubble_outline 13

Members 8 posts

2025年12月9日 19:22 2025年12月9日 19:22

一、软硬件信息
1.服务器厂家:
2.沐曦GPU型号：C550
3.操作系统内核版本：Linux mx-oam-151 5.15.0-58-generic #64~20.04.1-Ubuntu SMP Fri Jan 6 16:42:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
4.是否开启CPU虚拟化：开启

二、具体问题1
GPU-Operator部署后使用的SDK如图，

创建的pod如下

apiVersion: v1
kind: Pod
metadata:
  name: task-sample-pod-2
spec:
  schedulerName: hami-scheduler
  containers:
    - name: ubuntu-task
      image: docker.io/ubuntu:20.04
      imagePullPolicy: Never
      command: [
        "bash",
        "-c",
        "cp -r /opt/maca/samples/0_Introduction/vectorAdd /home;
        cd /home/vectorAdd;
        mxcc -x maca vectorAdd.cpp -o vectorAdd --maca-path=/opt/maca;
        ./vectorAdd > log/vectoradd_exec_output.log;
        tail -f /dev/null",
      ]
      resources:
        limits:
          metax-tech.com/sgpu: 1 # requesting 1 GPU
          metax-tech.com/vcore: 40 # requesting 60% compute of full GPU
          metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU

报错如下：

三、具体问题2
如果新创建一个 pod，会显示
Allocate failed due to rpc error: code = Unknown desc = set 0000:c2:00.0 model error write /proc/1/root/sys/bus/pci/devices/0000:c2:00.0/model: device or resource busy, which is unexpected
但mx-smi如下，并没有使用第二张卡

arrow_forward
Thread has been moved from 公共.
- By shuai_chen on 2025年12月10日 12:18.
link

shuai_chen
Members 314 posts

2025年12月10日 12:23 2025年12月10日 12:23
link

尊敬的开发者您好，您创建pod的yaml文件请不要执行命令，删掉相关代码，请您进入容器后执行mx-smi，将回显回复。

Members 8 posts

2025年12月10日 14:10 2025年12月10日 14:10

刚创建了一个，另外论坛没有删帖功能吗，好像发了两个一模一样的帖子

apiVersion: v1
kind: Pod
metadata:
  name: sample-pod
spec:
  schedulerName: hami-scheduler
  containers:
    - name: ubuntu
      image: ubuntu:22.04
      imagePullPolicy: IfNotPresent
      command: ['bash', '-c']
      args: ["sleep infinity"]
      resources:
        limits:
          metax-tech.com/sgpu: 1 # requesting 1 GPU
          metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
          metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU

image.png

PNG, 57.0 KB, uploaded by Cafba on 2025年12月10日.

link

shuai_chen
Members 314 posts

2025年12月10日 14:58 2025年12月10日 14:58
link

尊敬的开发者您好，请您在宿主机执行mx-smi sgpu，将回显回复。
link

Cafba
Members 8 posts

2025年12月10日 15:04 2025年12月10日 15:04
link

...如下：

image.png
PNG, 62.1 KB, uploaded by Cafba on 2025年12月10日.
link

shuai_chen
Members 314 posts

2025年12月10日 15:17 2025年12月10日 15:17
link

尊敬的开发者您好，请将您当前mx-smi以及mx-smi sgpu的回显重定向为txt，将txt文件回复。
link

Cafba
Members 8 posts

2025年12月10日 15:20 2025年12月10日 15:20
link

现在看的是第一个缺少stdio的问题吗，第二个设备占用的问题已经解决了
link

shuai_chen
Members 314 posts

2025年12月10日 15:21 2025年12月10日 15:21
link

尊敬的开发者您好，请将您安装GPU-Operator的详细过程回复一下。
link

Cafba
Members 8 posts

2025年12月10日 15:39 2025年12月10日 15:39
link

按照官方文档的步骤装的，镜像下载到本地，没有使用仓库，SDK 的镜像也有

Members 314 posts

2025年12月10日 15:52 2025年12月10日 15:52

@Cafba has written:

刚创建了一个，另外论坛没有删帖功能吗，好像发了两个一模一样的帖子

apiVersion: v1
kind: Pod
metadata:
  name: sample-pod
spec:
  schedulerName: hami-scheduler
  containers:
    - name: ubuntu
      image: ubuntu:22.04
      imagePullPolicy: IfNotPresent
      command: ['bash', '-c']
      args: ["sleep infinity"]
      resources:
        limits:
          metax-tech.com/sgpu: 1 # requesting 1 GPU
          metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
          metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU

尊敬的开发者您好，请您启动这个pod，并进入这个pod，执行mx-smi命令，将回显回复。

Members 8 posts

2025年12月10日 16:03 2025年12月10日 16:03

@Cafba has written:

刚创建了一个，另外论坛没有删帖功能吗，好像发了两个一模一样的帖子

apiVersion: v1
kind: Pod
metadata:
  name: sample-pod
spec:
  schedulerName: hami-scheduler
  containers:
    - name: ubuntu
      image: ubuntu:22.04
      imagePullPolicy: IfNotPresent
      command: ['bash', '-c']
      args: ["sleep infinity"]
      resources:
        limits:
          metax-tech.com/sgpu: 1 # requesting 1 GPU
          metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
          metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU

link

shuai_chen
Members 314 posts

2025年12月10日 16:56 2025年12月10日 16:56
link

尊敬的开发者您好，请您不要使用SGPU，您按照申请一张完整的卡操作。
link

Cafba
Members 8 posts

2025年12月10日 17:07 2025年12月10日 17:07
link

还是一样的报错，这不是缺依赖的问题吗，怎么总用mx-smi在卡上找原因
link

shuai_chen
Members 314 posts

2025年12月10日 17:13 2025年12月10日 17:13
link

尊敬的开发者您好，请您通过向您提供机器的接口人申请技术支持便于快速解决您的问题。
arrow_forward
Thread has been moved from 解决中.
- By shuai_chen on 2025年12月24日 19:25.