曦云系列通用GPU云原生参考手册
1. 概述
1.1. 关于 GPU Operator
1.1.1. 特性说明
2. 快速开始
2.1. 前提条件
2.2. 安装
2.3. 运行一个 GPU 任务
3. 安装与维护
3.1. 安装
3.1.1. 环境要求
3.1.2. 软件包获取
3.1.3. 安装步骤
3.1.3.1. 准备容器镜像仓库和 Helm仓库
3.1.3.2. 推送资源到仓库
3.1.3.3. 安装 GPU Operator
3.2. 构建应用镜像
3.2.1. 容器内使用 MXMACA
®
环境要求
3.3. MinimalMode
3.3.1. 介绍
3.3.2. 支持的组件
3.3.3. 前置准备
3.3.3.1. 内核态驱动资源获取安装
3.3.3.2. MXMACA
®
SDK 资源获取安装
3.3.4. MinimalMode安装
3.4. 卸载
3.4.1. 卸载 GPU Operator
3.4.2. 卸载异常
3.5. 更新
3.5.1. GPU Operator 版本更新
3.5.2. 动态更新 GPU Operator 配置参数
3.5.2.1. 操作步骤
3.6. 参数介绍
3.6.1. 设置Chart选项
3.6.2. 典型场景配置示例
3.6.2.1. 场景一:指定 MXMACA
®
版本安装
3.6.2.2. 场景二:多 MXMACA
®
版本配置
3.6.2.3. 场景三:指定驱动版本安装
3.6.2.4. 场景四:OpenShift平台安装
4. 组件介绍
4.1. 组件总览
4.1.1. 模式说明
4.1.2. 组件清单与功能
4.2. 通用配置
4.2.1. podTemplateSpec
4.2.1.1. 简介
4.2.1.2. 配置说明
4.2.1.3. 功能介绍 (
tolerations
为例)
4.2.1.4. 配置示例
4.2.1.5. 配置验证
4.2.1.6. 注意事项
4.3. gpu-label
4.3.1. 简介
4.3.2. 配置介绍
4.3.3. 组件功能
4.3.3.1. 节点标签生成
4.4. gpu-device
4.4.1. 简介
4.4.2. 配置介绍
4.4.3. 组件功能
4.4.3.1. 健康检查
4.4.3.2. GPU拓扑最优分配
4.4.3.3. GPU拓扑信息
4.4.3.4. vfio-gpu资源申请
4.4.3.5. 配置sGPU
4.4.3.6. 配置shared-gpu
4.5. container-runtime
4.5.1. 简介
4.5.2. 配置介绍
4.5.3. 组件功能
4.5.3.1. GPU基础资源自动注入
4.6. driver
4.6.1. 简介
4.6.2. 配置介绍
4.6.3. 组件功能
4.6.3.1. 内核驱动配置
4.6.3.2. 内核驱动灰度发布
4.6.3.3. 固件升级
4.7. maca
4.7.1. 简介
4.7.2. 配置介绍
4.7.3. 组件功能
4.7.3.1. MXMACA
®
资源管理
4.7.3.2. GPU运行任务指定 MXMACA
®
SDK 版本
4.8. mx-exporter
4.8.1. 简介
4.8.2. 配置介绍
4.8.3. 组件功能
4.8.3.1. 监控指标
4.8.3.2. 对外服务
4.9. topoDiscovery
4.9.1. 简介
4.9.2. 配置介绍
4.9.3. 组件功能
4.9.3.1. config模式
4.9.3.2. dragonfly模式
4.9.3.3. switchbox模式
4.10. gpu-scheduler
4.10.1. 简介
4.10.2. 配置介绍
4.10.3. 组件功能
4.10.3.1. 资源调度
4.10.3.2. 安装与使用说明
4.10.3.3. 对外服务能力
5. 支持
5.1. 资源获取
5.1.1. 文档获取
5.1.2. 软件获取
5.2. 驱动资源详解
5.2.1. 内核驱动镜像
5.2.2. MXMACA
®
容器镜像
5.3. 常见问题
5.3.1. 卸载异常处理
5.3.1.1. 异常场景说明
5.3.1.2. 手动清理步骤
5.3.1.3. 后续验证
5.3.1.4. 注意事项
6. 附录:GPU Extensions
6.1. 部署参考
6.1.1. 安装 GPU Extensions
6.1.2. 设置Chart选项
6.1.3. 验证部署
6.1.4. 卸载 GPU Extensions
6.1.5. 启用 gpu-aware (可选)
6.1.5.1. 检查 gpu-aware 是否需要和三方调度器集成
6.1.5.2. 启用gpu-aware组件
6.1.5.3. 停用gpu-aware组件
6.1.5.4. gpu-aware与三方调度器集成
6.1.5.5. 停止gpu-aware与三方调度器集成
6.1.5.6. 修改调度策略
6.1.6. 启用topoDiscovery(可选)
6.1.6.1. config模式
6.1.6.2. dragonfly模式
6.1.6.3. switchbox模式
6.2. 组件功能
6.2.1. gpu-device
6.2.2. gpu-label
6.2.3. topo-master
6.2.4. topo-worker
6.2.5. gpu-aware
6.2.5.1. gpu-aware节点评分方案
6.2.5.2. gpu-aware权重
6.3. 提交作业
6.3.1. 制作容器镜像
6.3.2. 准备作业yaml文件
6.3.3. 提交作业
6.4. 节点维护
7. 附录:生态支持
7.1. MetaX Docker
7.1.1. 安装metax-docker
7.1.2. 使用metax-docker
7.1.3. 构建应用软件镜像
7.2. Volcano
7.2.1. 部署Volcano
7.2.1.1. 解压离线安装包
7.2.1.2. 推送容器镜像
7.2.1.3. 安装Volcano
7.2.1.4. 验证部署
7.2.1.5. 卸载Volcano
7.2.2. 扩展插件
7.2.2.1. gpu-aware
7.2.2.2. gpu-podaffinity
7.3. HAMi
7.3.1. 部署HAMi
7.3.2. 使用sGPU
7.3.2.1. sGPU任务示例
7.3.2.2. 提交sGPU任务
曦云系列通用GPU云原生参考手册
索引
索引