MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 已解决

GPU-Operator部署后使用hami调度的两个问题

Cafba
2025年12月9日
chat_bubble_outline 13
  • link
    Cafba
    Members 8 posts
    2025年12月9日 19:22 2025年12月9日 19:22
    link

    一、软硬件信息
    1.服务器厂家:
    2.沐曦GPU型号:C550
    3.操作系统内核版本:Linux mx-oam-151 5.15.0-58-generic #64~20.04.1-Ubuntu SMP Fri Jan 6 16:42:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
    4.是否开启CPU虚拟化:开启
    image.png
    二、具体问题1
    GPU-Operator部署后使用的SDK如图,
    image.png
    创建的pod如下

    apiVersion: v1
    kind: Pod
    metadata:
      name: task-sample-pod-2
    spec:
      schedulerName: hami-scheduler
      containers:
        - name: ubuntu-task
          image: docker.io/ubuntu:20.04
          imagePullPolicy: Never
          command: [
            "bash",
            "-c",
            "cp -r /opt/maca/samples/0_Introduction/vectorAdd /home;
            cd /home/vectorAdd;
            mxcc -x maca vectorAdd.cpp -o vectorAdd --maca-path=/opt/maca;
            ./vectorAdd > log/vectoradd_exec_output.log;
            tail -f /dev/null",
          ]
          resources:
            limits:
              metax-tech.com/sgpu: 1 # requesting 1 GPU
              metax-tech.com/vcore: 40 # requesting 60% compute of full GPU
              metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU
    

    报错如下:
    image.png
    三、具体问题2
    如果新创建一个 pod,会显示
    Allocate failed due to rpc error: code = Unknown desc = set 0000:c2:00.0 model error write /proc/1/root/sys/bus/pci/devices/0000:c2:00.0/model: device or resource busy, which is unexpected
    但mx-smi如下,并没有使用第二张卡
    image.png

  • arrow_forward

    Thread has been moved from 公共.

    • By shuai_chen on 2025年12月10日 12:18.
  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 12:23 2025年12月10日 12:23
    link

    尊敬的开发者您好,您创建pod的yaml文件请不要执行命令,删掉相关代码,请您进入容器后执行mx-smi,将回显回复。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 14:10 2025年12月10日 14:10
    link

    刚创建了一个,另外论坛没有删帖功能吗,好像发了两个一模一样的帖子

    apiVersion: v1
    kind: Pod
    metadata:
      name: sample-pod
    spec:
      schedulerName: hami-scheduler
      containers:
        - name: ubuntu
          image: ubuntu:22.04
          imagePullPolicy: IfNotPresent
          command: ['bash', '-c']
          args: ["sleep infinity"]
          resources:
            limits:
              metax-tech.com/sgpu: 1 # requesting 1 GPU
              metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
              metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU
    
    image.png

    PNG, 57.0 KB, uploaded by Cafba on 2025年12月10日.

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 14:58 2025年12月10日 14:58
    link

    尊敬的开发者您好,请您在宿主机执行mx-smi sgpu,将回显回复。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 15:04 2025年12月10日 15:04
    link

    ...如下:

    image.png

    PNG, 62.1 KB, uploaded by Cafba on 2025年12月10日.

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 15:17 2025年12月10日 15:17
    link

    尊敬的开发者您好,请将您当前mx-smi以及mx-smi sgpu的回显重定向为txt,将txt文件回复。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 15:20 2025年12月10日 15:20
    link

    现在看的是第一个缺少stdio的问题吗,第二个设备占用的问题已经解决了

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 15:21 2025年12月10日 15:21
    link

    尊敬的开发者您好,请将您安装GPU-Operator的详细过程回复一下。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 15:39 2025年12月10日 15:39
    link

    按照官方文档的步骤装的,镜像下载到本地,没有使用仓库,SDK 的镜像也有
    image.png

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 15:52 2025年12月10日 15:52
    link
    @Cafba has written:

    刚创建了一个,另外论坛没有删帖功能吗,好像发了两个一模一样的帖子

    apiVersion: v1
    kind: Pod
    metadata:
      name: sample-pod
    spec:
      schedulerName: hami-scheduler
      containers:
        - name: ubuntu
          image: ubuntu:22.04
          imagePullPolicy: IfNotPresent
          command: ['bash', '-c']
          args: ["sleep infinity"]
          resources:
            limits:
              metax-tech.com/sgpu: 1 # requesting 1 GPU
              metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
              metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU
    

    尊敬的开发者您好,请您启动这个pod,并进入这个pod,执行mx-smi命令,将回显回复。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 16:03 2025年12月10日 16:03
    link
    @Cafba has written:

    刚创建了一个,另外论坛没有删帖功能吗,好像发了两个一模一样的帖子

    apiVersion: v1
    kind: Pod
    metadata:
      name: sample-pod
    spec:
      schedulerName: hami-scheduler
      containers:
        - name: ubuntu
          image: ubuntu:22.04
          imagePullPolicy: IfNotPresent
          command: ['bash', '-c']
          args: ["sleep infinity"]
          resources:
            limits:
              metax-tech.com/sgpu: 1 # requesting 1 GPU
              metax-tech.com/vcore: 60 # requesting 60% compute of full GPU
              metax-tech.com/vmemory: 4 # requesting 4 GiB device memory of full GPU
    

    image.png

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 16:56 2025年12月10日 16:56
    link

    尊敬的开发者您好,请您不要使用SGPU,您按照申请一张完整的卡操作。

  • link
    Cafba
    Members 8 posts
    2025年12月10日 17:07 2025年12月10日 17:07
    link

    还是一样的报错,这不是缺依赖的问题吗,怎么总用mx-smi在卡上找原因
    image.png

  • link
    shuai_chen
    Members 314 posts
    2025年12月10日 17:13 2025年12月10日 17:13
    link

    尊敬的开发者您好,请您通过向您提供机器的接口人申请技术支持便于快速解决您的问题。

  • arrow_forward

    Thread has been moved from 解决中.

    • By shuai_chen on 2025年12月24日 19:25.
arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago