曦云系列通用计算GPU 云原生参考手册
目录
1. 概述
1.1. Kubernetes组件
1.2. Helm Chart
1.3. 软件清单
1.4. 离线安装包
1.4.1. 推送容器镜像
1.4.2. 推送Helm Chart
1.4.3. MXMACA
®
容器镜像
1.4.4. 内核驱动容器镜像
1.4.5. 容器内使用 MXMACA
®
环境要求
2. GPU Extensions
2.1. 部署参考
2.1.1. 安装 GPU Extensions
2.1.2. 设置Chart选项
2.1.3. 验证部署
2.1.4. 卸载 GPU Extensions
2.1.5. 启用 gpu-aware (可选)
2.1.5.1. 检查 gpu-aware 是否需要和三方调度器集成
2.1.5.2. 启用gpu-aware组件
2.1.5.3. 停用gpu-aware组件
2.1.5.4. gpu-aware与三方调度器集成
2.1.5.5. 停止gpu-aware与三方调度器集成
2.1.5.6. 修改调度策略
2.1.6. 启用topoDiscovery(可选)
2.1.6.1. config模式
2.1.6.2. dragonfly模式
2.1.6.3. switchbox模式
2.2. 组件功能
2.2.1. gpu-device
2.2.2. gpu-label
2.2.3. topo-master
2.2.4. topo-worker
2.2.5. gpu-aware
2.2.5.1. gpu-aware节点评分方案
2.2.5.2. gpu-aware权重
2.3. 提交作业
2.3.1. 制作容器镜像
2.3.2. 准备作业yaml文件
2.3.3. 提交作业
2.4. 节点维护
3. GPU Operator
3.1. 关于 GPU Operator
3.2. 部署参考
3.2.1. 安装 GPU Operator
3.2.2. 设置Chart选项
3.2.3. 运行时组件依赖
3.2.4. 轻量化模式
3.2.4.1. 开启轻量化模式
3.2.4.2. 组件支持
3.2.5. (弃用) 配置全局toleration
3.2.5.1. 安装时,初始化全局toleration配置
3.2.5.2. 安装后,修改自定义资源,更新全局toleration配置
3.2.6. 工作负载 Pod 参数配置规范
3.2.6.1. 配置优先级规则
3.2.6.2. 配置操作指南(以
tolerations
为例)
3.2.7. 内核驱动配置v1
3.2.7.1. 配置虚拟化
3.2.7.2. 配置绑定 vfio-pci 驱动
3.2.7.3. 配置内核驱动参数
3.2.8. 内核驱动配置v2
3.2.9. 配置内核驱动灰度发布
3.2.10. 固件升级
3.2.11. 配置sGPU
3.2.12. 配置 gpu-scheduler 调度器
3.2.12.1. 部署说明
3.2.12.2. 参数配置
3.2.13. 验证部署
3.2.14. 卸载 GPU Operator
3.3. 提交作业
3.3.1. 制作容器镜像
3.3.2. 准备作业yaml文件
3.3.3. 加载指定版本 MXMACA
®
3.3.4. 提交作业
3.4. KubeVirt添加GPU
4. MetaX Docker
4.1. 安装metax-docker
4.2. 使用metax-docker
4.3. 构建应用软件镜像
5. 附录:生态支持
5.1. Volcano
5.1.1. 部署Volcano
5.1.1.1. 安装Helm
5.1.1.2. 解压离线安装包
5.1.1.3. 推送容器镜像
5.1.1.4. 安装Volcano
5.1.1.5. 验证部署
5.1.1.6. 卸载Volcano
5.1.2. 扩展插件
5.1.2.1. gpu-aware
5.1.2.2. gpu-podaffinity
5.2. HAMi
5.2.1. 部署HAMi
5.2.2. 使用sGPU
5.2.2.1. sGPU任务示例
5.2.2.2. 提交sGPU任务
曦云系列通用计算GPU 云原生参考手册
文档—沐曦开发者
下一页
文档—沐曦开发者
目录
1. 概述
1.1. Kubernetes组件
1.2. Helm Chart
1.3. 软件清单
1.4. 离线安装包
1.4.1. 推送容器镜像
1.4.2. 推送Helm Chart
1.4.3. MXMACA
®
容器镜像
1.4.4. 内核驱动容器镜像
1.4.5. 容器内使用 MXMACA
®
环境要求
2. GPU Extensions
2.1. 部署参考
2.1.1. 安装 GPU Extensions
2.1.2. 设置Chart选项
2.1.3. 验证部署
2.1.4. 卸载 GPU Extensions
2.1.5. 启用 gpu-aware (可选)
2.1.5.1. 检查 gpu-aware 是否需要和三方调度器集成
2.1.5.2. 启用gpu-aware组件
2.1.5.3. 停用gpu-aware组件
2.1.5.4. gpu-aware与三方调度器集成
2.1.5.5. 停止gpu-aware与三方调度器集成
2.1.5.6. 修改调度策略
2.1.6. 启用topoDiscovery(可选)
2.1.6.1. config模式
2.1.6.2. dragonfly模式
2.1.6.3. switchbox模式
2.2. 组件功能
2.2.1. gpu-device
2.2.2. gpu-label
2.2.3. topo-master
2.2.4. topo-worker
2.2.5. gpu-aware
2.2.5.1. gpu-aware节点评分方案
2.2.5.2. gpu-aware权重
2.3. 提交作业
2.3.1. 制作容器镜像
2.3.2. 准备作业yaml文件
2.3.3. 提交作业
2.4. 节点维护
3. GPU Operator
3.1. 关于 GPU Operator
3.2. 部署参考
3.2.1. 安装 GPU Operator
3.2.2. 设置Chart选项
3.2.3. 运行时组件依赖
3.2.4. 轻量化模式
3.2.4.1. 开启轻量化模式
3.2.4.2. 组件支持
3.2.5. (弃用) 配置全局toleration
3.2.5.1. 安装时,初始化全局toleration配置
3.2.5.2. 安装后,修改自定义资源,更新全局toleration配置
3.2.6. 工作负载 Pod 参数配置规范
3.2.6.1. 配置优先级规则
3.2.6.2. 配置操作指南(以
tolerations
为例)
3.2.7. 内核驱动配置v1
3.2.7.1. 配置虚拟化
3.2.7.2. 配置绑定 vfio-pci 驱动
3.2.7.3. 配置内核驱动参数
3.2.8. 内核驱动配置v2
3.2.9. 配置内核驱动灰度发布
3.2.10. 固件升级
3.2.11. 配置sGPU
3.2.12. 配置 gpu-scheduler 调度器
3.2.12.1. 部署说明
3.2.12.2. 参数配置
3.2.13. 验证部署
3.2.14. 卸载 GPU Operator
3.3. 提交作业
3.3.1. 制作容器镜像
3.3.2. 准备作业yaml文件
3.3.3. 加载指定版本 MXMACA
®
3.3.4. 提交作业
3.4. KubeVirt添加GPU
4. MetaX Docker
4.1. 安装metax-docker
4.2. 使用metax-docker
4.3. 构建应用软件镜像
5. 附录:生态支持
5.1. Volcano
5.1.1. 部署Volcano
5.1.1.1. 安装Helm
5.1.1.2. 解压离线安装包
5.1.1.3. 推送容器镜像
5.1.1.4. 安装Volcano
5.1.1.5. 验证部署
5.1.1.6. 卸载Volcano
5.1.2. 扩展插件
5.1.2.1. gpu-aware
5.1.2.2. gpu-podaffinity
5.2. HAMi
5.2.1. 部署HAMi
5.2.2. 使用sGPU
5.2.2.1. sGPU任务示例
5.2.2.2. 提交sGPU任务