曦云系列通用GPU Kubernetes部署手册
1. 基于k8s的GPU调度方案
1.1. 调度解决方案概述
1.2. 准备 GPU Operator 所需的前置资源
1.3. 部署 gpu-scheduler 方案
1.3.1. 安装 GPU Operator
1.3.2. 编写任务 YAML
1.3.3. 提交任务
1.3.4. 检查调度结果
1.4. 部署 HAMi 方案
1.4.1. 安装 GPU Operator
1.4.1.1. 集群内所有沐曦 GPU 都需启用 GPU 共享功能
1.4.1.2. 集群内仅部分节点的沐曦 GPU 需启用 GPU 共享功能
1.4.2. 安装 HAMi
1.4.3. 编写任务 YAML
1.4.4. 提交任务
1.4.5. 检查调度结果
1.5. 部署 Volcano 方案
1.5.1. 安装 GPU Operator
1.5.1.1. 常规 GPU 集群
1.5.1.2. 超节点集群( SwitchBox 拓扑形态集群)
1.5.2. 安装 Volcano
1.5.2.1. 解压 Volcano 离线安装包
1.5.2.2. 推送 Volcano 容器镜像
1.5.2.3. 安装 Volcano
1.5.2.4. 检查安装状态
1.5.3. 配置 Volcano 调度插件
1.5.4. 编写任务 YAML
1.5.5. 提交任务
1.5.6. 检查调度结果
2. GPU虚拟化
2.1. 简介
2.2. 安装 GPU Operator
2.3. SR-IOV虚拟化
2.3.1. 准备条件
2.3.2. [推荐] v2版配置
2.3.3. v1版配置
2.4. KubeVirt虚拟机模式
2.4.1. 准备条件
2.4.2. [推荐] v2版配置
2.4.3. v1版配置
2.4.4. 运行KubeVirt虚拟机
3. GPU驱动与固件升级介绍
3.1. 内核驱动灰度发布方案
3.1.1. 简介
3.1.2. 术语描述
3.1.3. 操作步骤
3.1.4. 问题排查
3.2. 固件升级
3.2.1. 适用场景
3.2.2. 使用限制
3.2.3. 升级固件
4. sGPU介绍
4.1. 在单机场景下使用sGPU
4.1.1. 基础环境要求
4.1.2. 安装metax-docker
4.1.3. 开启/停用sGPU功能
4.1.4. 创建/销毁sGPU资源
4.1.5. 在容器中挂载sGPU
4.2. 在K8s场景下使用sGPU
4.2.1. 安装 GPU Operator
4.2.1.1. 集群内所有沐曦 GPU 都需要启用 GPU 共享功能
4.2.1.2. 集群内仅部分节点的沐曦 GPU 需要启用 GPU 共享功能
4.2.2. 安装 HAMi
4.2.3. 编写任务 YAML
4.2.4. 提交任务
4.2.5. 检查调度结果
4.2.6. sGPU挂载检查
5. shared-gpu介绍
5.1. 在K8s场景下使用shared-gpu
5.1.1. 安装 GPU Operator
5.1.2. 启动shared-gpu模式
5.1.3. 编写任务 YAML
5.1.4. 提交任务
5.1.5. 检查调度结果
曦云系列通用GPU Kubernetes部署手册
目录
下一页
目录
1. 基于k8s的GPU调度方案
1.1. 调度解决方案概述
1.2. 准备 GPU Operator 所需的前置资源
1.3. 部署 gpu-scheduler 方案
1.3.1. 安装 GPU Operator
1.3.2. 编写任务 YAML
1.3.3. 提交任务
1.3.4. 检查调度结果
1.4. 部署 HAMi 方案
1.4.1. 安装 GPU Operator
1.4.1.1. 集群内所有沐曦 GPU 都需启用 GPU 共享功能
1.4.1.2. 集群内仅部分节点的沐曦 GPU 需启用 GPU 共享功能
1.4.2. 安装 HAMi
1.4.3. 编写任务 YAML
1.4.4. 提交任务
1.4.5. 检查调度结果
1.5. 部署 Volcano 方案
1.5.1. 安装 GPU Operator
1.5.1.1. 常规 GPU 集群
1.5.1.2. 超节点集群( SwitchBox 拓扑形态集群)
1.5.2. 安装 Volcano
1.5.2.1. 解压 Volcano 离线安装包
1.5.2.2. 推送 Volcano 容器镜像
1.5.2.3. 安装 Volcano
1.5.2.4. 检查安装状态
1.5.3. 配置 Volcano 调度插件
1.5.4. 编写任务 YAML
1.5.5. 提交任务
1.5.6. 检查调度结果
2. GPU虚拟化
2.1. 简介
2.2. 安装 GPU Operator
2.3. SR-IOV虚拟化
2.3.1. 准备条件
2.3.2. [推荐] v2版配置
2.3.3. v1版配置
2.4. KubeVirt虚拟机模式
2.4.1. 准备条件
2.4.2. [推荐] v2版配置
2.4.3. v1版配置
2.4.4. 运行KubeVirt虚拟机
3. GPU驱动与固件升级介绍
3.1. 内核驱动灰度发布方案
3.1.1. 简介
3.1.2. 术语描述
3.1.3. 操作步骤
3.1.4. 问题排查
3.2. 固件升级
3.2.1. 适用场景
3.2.2. 使用限制
3.2.3. 升级固件
4. sGPU介绍
4.1. 在单机场景下使用sGPU
4.1.1. 基础环境要求
4.1.2. 安装metax-docker
4.1.3. 开启/停用sGPU功能
4.1.4. 创建/销毁sGPU资源
4.1.5. 在容器中挂载sGPU
4.2. 在K8s场景下使用sGPU
4.2.1. 安装 GPU Operator
4.2.1.1. 集群内所有沐曦 GPU 都需要启用 GPU 共享功能
4.2.1.2. 集群内仅部分节点的沐曦 GPU 需要启用 GPU 共享功能
4.2.2. 安装 HAMi
4.2.3. 编写任务 YAML
4.2.4. 提交任务
4.2.5. 检查调度结果
4.2.6. sGPU挂载检查
5. shared-gpu介绍
5.1. 在K8s场景下使用shared-gpu
5.1.1. 安装 GPU Operator
5.1.2. 启动shared-gpu模式
5.1.3. 编写任务 YAML
5.1.4. 提交任务
5.1.5. 检查调度结果