MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 产品&运维
  • label 已解决

K8S安装问题

sunjiawang
2026年2月9日
chat_bubble_outline 3
  • link
    sunjiawang
    Members 3 posts
    2026年2月9日 10:59 2026年2月9日 10:59
    link

    我根据文档:曦云系列通用GPU Kubernetes部署手册 教程
    1.根据(图一)命令,已经在我的服务器安装了operator,但是runtime一直崩溃(图二),而且组件数量也不对,就只有这三个
    这是崩溃日志:
    WARNING: NFD volume is not mounted, without it we'll run blindly with cloud mode driver
    {"level":"info","msg":"containerd config version = 2","time":"2026-02-09T07:23:58Z"}
    panic: interface conversion: interface {} is nil, not string

    goroutine 1 [running]:
    main.(ContainerdConfigBuilder).setup(0xc0001c58c0, {0xc0003ae540, 0x31}, {0x14?, 0xc00002a6e0?, 0x1c?})
    /workspace/container-toolkit/cmd/mx-ctk-installer/containerd.go:101 +0xc96
    main.(
    Runtime).register(0xc0002a5b68)
    /workspace/container-toolkit/cmd/mx-ctk-installer/runtime.go:67 +0xb1
    main.Run(0xc0001a6580?)
    /workspace/container-toolkit/cmd/mx-ctk-installer/main.go:198 +0x71f
    github.com/urfave/cli/v2.(Command).Run(0xc0002ea580, 0xc0001a6580, {0xc0000241a0, 0xd, 0xd})
    /workspace/container-toolkit/vendor/github.com/urfave/cli/v2/command.go:276 +0x7c2
    github.com/urfave/cli/v2.(
    App).RunContext(0xc0002f8000, {0x9ad958, 0xd10fc0}, {0xc0000241a0, 0xd, 0xd})
    /workspace/container-toolkit/vendor/github.com/urfave/cli/v2/app.go:333 +0x5a5
    github.com/urfave/cli/v2.(*App).Run(...)
    /workspace/container-toolkit/vendor/github.com/urfave/cli/v2/app.go:307
    main.main()
    /workspace/container-toolkit/cmd/mx-ctk-installer/main.go:131 +0xb86

    image.png

    PNG, 81.1 KB, uploaded by sunjiawang on 2026年2月9日.

    image.png

    PNG, 132.3 KB, uploaded by sunjiawang on 2026年2月9日.

  • link
    shuai_chen
    Members 221 posts
    2026年2月11日 14:20 2026年2月11日 14:20
    link

    尊敬的开发者您好,请按照下面模版提供详细信息

    一、软硬件信息
    1.服务器厂家:
    2.沐曦GPU型号:
    3.操作系统内核版本:
    4.是否开启CPU虚拟化:
    5.mx-smi回显:
    6.具体执行命令
    二、问题现象
    请描述详细的问题现象日志。若日志过长,请上传附件(txt格式)。

  • link
    sunjiawang
    Members 3 posts
    2026年2月11日 14:25 2026年2月11日 14:25
    link

    这个我已经解决了,kubectl describe node信息里已经可以看见沐曦GPU了,且创建了ubuntu容器申请GPU也能在容器里使用mx-smi了,图片里是operator自动创建的pod,组件数量我感觉不太对劲(图二)

    1.GPU:沐曦C500
    2.操作系统:Ubuntu 22.04.5 LTS
    3.内核:5.15.0-119-generic
    4.开启了
    5.见图一
    6.helm install ./metax-operator-0.14.0.tgz --create-namespace -n metax-operator --generate-name --wait --set gpuScheduler.deploy=true
    7. txt附件是operator的日志

    insert_drive_file
    operator.txt

    Text, 37.4 KB, uploaded by sunjiawang on 2026年2月11日.

    image.png

    PNG, 73.1 KB, uploaded by sunjiawang on 2026年2月11日.

    image.png

    PNG, 29.9 KB, uploaded by sunjiawang on 2026年2月11日.

  • arrow_forward

    Thread has been moved from 产品&运维.

    • By shuai_chen on 2026年2月11日 14:36.
  • link
    shuai_chen
    Members 221 posts
    2026年2月11日 14:37 2026年2月11日 14:37
    link

    尊敬的开发者您好,组件数量是正确的

  • arrow_forward

    Thread has been moved from 解决中.

    • By shuai_chen on 2026年2月11日 14:38.
arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago