曦云系列通用计算GPU 云原生参考手册

目录

  • 1. 概述
    • 1.1. Kubernetes组件
    • 1.2. Helm Chart
    • 1.3. 软件清单
    • 1.4. 离线安装包
      • 1.4.1. 推送容器镜像
      • 1.4.2. 推送Helm Chart
      • 1.4.3. MXMACA® 容器镜像
      • 1.4.4. 内核驱动容器镜像
      • 1.4.5. 容器内使用 MXMACA® 环境要求
  • 2. GPU Extensions
    • 2.1. 部署参考
      • 2.1.1. 安装 GPU Extensions
      • 2.1.2. 设置Chart选项
      • 2.1.3. 验证部署
      • 2.1.4. 卸载 GPU Extensions
      • 2.1.5. 启用 gpu-aware (可选)
        • 2.1.5.1. 检查 gpu-aware 是否需要和三方调度器集成
        • 2.1.5.2. 启用gpu-aware组件
        • 2.1.5.3. 停用gpu-aware组件
        • 2.1.5.4. gpu-aware与三方调度器集成
        • 2.1.5.5. 停止gpu-aware与三方调度器集成
        • 2.1.5.6. 修改调度策略
      • 2.1.6. 启用topoDiscovery(可选)
        • 2.1.6.1. config模式
        • 2.1.6.2. dragonfly模式
        • 2.1.6.3. switchbox模式
    • 2.2. 组件功能
      • 2.2.1. gpu-device
      • 2.2.2. gpu-label
      • 2.2.3. topo-master
      • 2.2.4. topo-worker
      • 2.2.5. gpu-aware
        • 2.2.5.1. gpu-aware节点评分方案
        • 2.2.5.2. gpu-aware权重
    • 2.3. 提交作业
      • 2.3.1. 制作容器镜像
      • 2.3.2. 准备作业yaml文件
      • 2.3.3. 提交作业
    • 2.4. 节点维护
  • 3. GPU Operator
    • 3.1. 关于 GPU Operator
    • 3.2. 部署参考
      • 3.2.1. 安装 GPU Operator
      • 3.2.2. 设置Chart选项
      • 3.2.3. 运行时组件依赖
      • 3.2.4. 轻量化模式
        • 3.2.4.1. 开启轻量化模式
        • 3.2.4.2. 组件支持
      • 3.2.5. (弃用) 配置全局toleration
        • 3.2.5.1. 安装时,初始化全局toleration配置
        • 3.2.5.2. 安装后,修改自定义资源,更新全局toleration配置
      • 3.2.6. 工作负载 Pod 参数配置规范
        • 3.2.6.1. 配置优先级规则
        • 3.2.6.2. 配置操作指南(以 tolerations 为例)
      • 3.2.7. 内核驱动配置v1
        • 3.2.7.1. 配置虚拟化
        • 3.2.7.2. 配置绑定 vfio-pci 驱动
        • 3.2.7.3. 配置内核驱动参数
      • 3.2.8. 内核驱动配置v2
      • 3.2.9. 配置内核驱动灰度发布
      • 3.2.10. 固件升级
      • 3.2.11. 配置sGPU
      • 3.2.12. 配置 gpu-scheduler 调度器
        • 3.2.12.1. 部署说明
        • 3.2.12.2. 参数配置
      • 3.2.13. 验证部署
      • 3.2.14. 卸载 GPU Operator
    • 3.3. 提交作业
      • 3.3.1. 制作容器镜像
      • 3.3.2. 准备作业yaml文件
      • 3.3.3. 加载指定版本 MXMACA®
      • 3.3.4. 提交作业
    • 3.4. KubeVirt添加GPU
  • 4. MetaX Docker
    • 4.1. 安装metax-docker
    • 4.2. 使用metax-docker
    • 4.3. 构建应用软件镜像
  • 5. 附录:生态支持
    • 5.1. Volcano
      • 5.1.1. 部署Volcano
        • 5.1.1.1. 安装Helm
        • 5.1.1.2. 解压离线安装包
        • 5.1.1.3. 推送容器镜像
        • 5.1.1.4. 安装Volcano
        • 5.1.1.5. 验证部署
        • 5.1.1.6. 卸载Volcano
      • 5.1.2. 扩展插件
        • 5.1.2.1. gpu-aware
        • 5.1.2.2. gpu-podaffinity
    • 5.2. HAMi
      • 5.2.1. 部署HAMi
      • 5.2.2. 使用sGPU
        • 5.2.2.1. sGPU任务示例
        • 5.2.2.2. 提交sGPU任务
曦云系列通用计算GPU 云原生参考手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。