曦云系列通用计算GPU Kubernetes部署手册
  • 1. 基于k8s的GPU调度方案
    • 1.1. 调度解决方案概述
    • 1.2. 准备 GPU Operator 所需的前置资源
    • 1.3. 部署 gpu-scheduler 方案
      • 1.3.1. 安装 GPU Operator
      • 1.3.2. 编写任务 YAML
      • 1.3.3. 提交任务
      • 1.3.4. 检查调度结果
    • 1.4. 部署 HAMi 方案
      • 1.4.1. 安装 GPU Operator
        • 1.4.1.1. 集群内所有沐曦 GPU 都需启用 GPU 共享功能
        • 1.4.1.2. 集群内仅部分节点的沐曦 GPU 需启用 GPU 共享功能
      • 1.4.2. 安装 HAMi
      • 1.4.3. 编写任务 YAML
      • 1.4.4. 提交任务
      • 1.4.5. 检查调度结果
    • 1.5. 部署 Volcano 方案
      • 1.5.1. 安装 GPU Operator
        • 1.5.1.1. 常规 GPU 集群
        • 1.5.1.2. 超节点集群( SwitchBox 拓扑形态集群)
      • 1.5.2. 安装 Volcano
        • 1.5.2.1. 解压 Volcano 离线安装包
        • 1.5.2.2. 推送 Volcano 容器镜像
        • 1.5.2.3. 安装 Volcano
        • 1.5.2.4. 检查安装状态
      • 1.5.3. 配置 Volcano 调度插件
      • 1.5.4. 编写任务 YAML
      • 1.5.5. 提交任务
      • 1.5.6. 检查调度结果
  • 2. GPU虚拟化
    • 2.1. 简介
    • 2.2. 安装 GPU Operator
    • 2.3. SR-IOV虚拟化
      • 2.3.1. 准备条件
      • 2.3.2. [推荐] v2版配置
      • 2.3.3. v1版配置
    • 2.4. KubeVirt虚拟机模式
      • 2.4.1. 准备条件
      • 2.4.2. [推荐] v2版配置
      • 2.4.3. v1版配置
      • 2.4.4. 运行KubeVirt虚拟机
  • 3. GPU驱动与固件升级介绍
    • 3.1. 内核驱动灰度发布方案
      • 3.1.1. 简介
      • 3.1.2. 术语描述
      • 3.1.3. 操作步骤
      • 3.1.4. 问题排查
    • 3.2. 固件升级
      • 3.2.1. 适用场景
      • 3.2.2. 使用限制
      • 3.2.3. 升级固件
  • 4. sGPU介绍
    • 4.1. 在单机场景下使用sGPU
      • 4.1.1. 基础环境要求
      • 4.1.2. 安装metax-docker
      • 4.1.3. 开启/停用sGPU功能
      • 4.1.4. 创建/销毁sGPU资源
      • 4.1.5. 在容器中挂载sGPU
    • 4.2. 在K8s场景下使用sGPU
      • 4.2.1. 安装 GPU Operator
        • 4.2.1.1. 集群内所有沐曦 GPU 都需要启用 GPU 共享功能
        • 4.2.1.2. 集群内仅部分节点的沐曦 GPU 需要启用 GPU 共享功能
      • 4.2.2. 安装 HAMi
      • 4.2.3. 编写任务 YAML
      • 4.2.4. 提交任务
      • 4.2.5. 检查调度结果
      • 4.2.6. sGPU挂载检查
曦云系列通用计算GPU Kubernetes部署手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。