1. 概述
1.1. 关于 GPU Operator
Kubernetes(k8s)是一款流行的开源容器编排器,广泛应用于数据中心等场景下。 GPU Operator 是由沐曦打造的一款基于 Kubernetes的沐曦GPU解决方案。 该解决方案提供了多个组件,用于支持在集群上使用沐曦GPU以及 MXMACA® 软件栈。 这些组件以容器的形式提供,服务于用户应用运行的各个环节。
1.1.1. 特性说明
GPU Operator 是面向 Kubernetes 集群的 GPU 资源管理套件,核心特性覆盖 GPU 全生命周期管理、灵活配置策略及高兼容性,具体包括:
全链路 GPU 管理能力
集成 gpu-device(设备发现与健康监控)、driver-manager(驱动部署与升级)、container-runtime(容器运行时集成)等组件,实现从设备发现→驱动安装→资源调度→状态监控的全流程自动化管理。
多策略灵活配置
驱动部署策略:支持 PreferCloud(镜像驱动优先)、PreferHost(主机驱动优先)等模式,适配多种使用场景
灰度升级策略:通过配置集群驱动分批次升级(支持控制并行节点数、定义失败回滚策略),保障业务连续性
设备绑定策略:灵活强大的驱动支持,支持按节点或 GPU 序号绑定 VFIO-PCI 驱动,满足虚拟化场景需求
高兼容性与扩展性
支持主流 Linux OS 系统
兼容 Kubernetes 1.23+ 版本,支持 containerd、Docker 等容器运行时
监控与可观测性
内置 data-exporter 组件,支持 Prometheus 指标导出(如 GPU 利用率、温度等指标),通过 service 灵活暴露监控接口,无缝集成企业级监控体系。