曦云系列通用GPU云原生参考手册
  • 1. 概述
    • 1.1. 关于 GPU Operator
      • 1.1.1. 特性说明
  • 2. 快速开始
    • 2.1. 前提条件
    • 2.2. 安装
    • 2.3. 运行一个 GPU 任务
  • 3. 安装与维护
    • 3.1. 安装
      • 3.1.1. 环境要求
      • 3.1.2. 软件包获取
      • 3.1.3. 安装步骤
        • 3.1.3.1. 准备容器镜像仓库和 Helm仓库
        • 3.1.3.2. 推送资源到仓库
        • 3.1.3.3. 安装 GPU Operator
    • 3.2. 构建应用镜像
      • 3.2.1. 容器内使用 MXMACA® 环境要求
    • 3.3. MinimalMode
      • 3.3.1. 介绍
      • 3.3.2. 支持的组件
      • 3.3.3. 前置准备
        • 3.3.3.1. 内核态驱动资源获取安装
        • 3.3.3.2. MXMACA® SDK 资源获取安装
      • 3.3.4. MinimalMode安装
    • 3.4. 卸载
      • 3.4.1. 卸载 GPU Operator
      • 3.4.2. 卸载异常
    • 3.5. 更新
      • 3.5.1. GPU Operator 版本更新
      • 3.5.2. 动态更新 GPU Operator 配置参数
        • 3.5.2.1. 操作步骤
    • 3.6. 参数介绍
      • 3.6.1. 设置Chart选项
      • 3.6.2. 典型场景配置示例
        • 3.6.2.1. 场景一:指定 MXMACA® 版本安装
        • 3.6.2.2. 场景二:多 MXMACA® 版本配置
        • 3.6.2.3. 场景三:指定驱动版本安装
        • 3.6.2.4. 场景四:OpenShift平台安装
  • 4. 组件介绍
    • 4.1. 组件总览
      • 4.1.1. 模式说明
      • 4.1.2. 组件清单与功能
    • 4.2. 通用配置
      • 4.2.1. podTemplateSpec
        • 4.2.1.1. 简介
        • 4.2.1.2. 配置说明
        • 4.2.1.3. 功能介绍 ( tolerations 为例)
        • 4.2.1.4. 配置示例
        • 4.2.1.5. 配置验证
        • 4.2.1.6. 注意事项
    • 4.3. gpu-label
      • 4.3.1. 简介
      • 4.3.2. 配置介绍
      • 4.3.3. 组件功能
        • 4.3.3.1. 节点标签生成
    • 4.4. gpu-device
      • 4.4.1. 简介
      • 4.4.2. 配置介绍
      • 4.4.3. 组件功能
        • 4.4.3.1. 健康检查
        • 4.4.3.2. GPU拓扑最优分配
        • 4.4.3.3. GPU拓扑信息
        • 4.4.3.4. vfio-gpu资源申请
        • 4.4.3.5. 配置sGPU
        • 4.4.3.6. 配置shared-gpu
    • 4.5. container-runtime
      • 4.5.1. 简介
      • 4.5.2. 配置介绍
      • 4.5.3. 组件功能
        • 4.5.3.1. GPU基础资源自动注入
    • 4.6. driver
      • 4.6.1. 简介
      • 4.6.2. 配置介绍
      • 4.6.3. 组件功能
        • 4.6.3.1. 内核驱动配置
        • 4.6.3.2. 内核驱动灰度发布
        • 4.6.3.3. 固件升级
    • 4.7. maca
      • 4.7.1. 简介
      • 4.7.2. 配置介绍
      • 4.7.3. 组件功能
        • 4.7.3.1. MXMACA® 资源管理
        • 4.7.3.2. GPU运行任务指定 MXMACA® SDK 版本
    • 4.8. mx-exporter
      • 4.8.1. 简介
      • 4.8.2. 配置介绍
      • 4.8.3. 组件功能
        • 4.8.3.1. 监控指标
        • 4.8.3.2. 对外服务
    • 4.9. topoDiscovery
      • 4.9.1. 简介
      • 4.9.2. 配置介绍
      • 4.9.3. 组件功能
        • 4.9.3.1. config模式
        • 4.9.3.2. dragonfly模式
        • 4.9.3.3. switchbox模式
    • 4.10. gpu-scheduler
      • 4.10.1. 简介
      • 4.10.2. 配置介绍
      • 4.10.3. 组件功能
        • 4.10.3.1. 资源调度
        • 4.10.3.2. 安装与使用说明
        • 4.10.3.3. 对外服务能力
  • 5. 支持
    • 5.1. 资源获取
      • 5.1.1. 文档获取
      • 5.1.2. 软件获取
    • 5.2. 驱动资源详解
      • 5.2.1. 内核驱动镜像
      • 5.2.2. MXMACA® 容器镜像
    • 5.3. 常见问题
      • 5.3.1. 卸载异常处理
        • 5.3.1.1. 异常场景说明
        • 5.3.1.2. 手动清理步骤
        • 5.3.1.3. 后续验证
        • 5.3.1.4. 注意事项
  • 6. 附录:GPU Extensions
    • 6.1. 部署参考
      • 6.1.1. 安装 GPU Extensions
      • 6.1.2. 设置Chart选项
      • 6.1.3. 验证部署
      • 6.1.4. 卸载 GPU Extensions
      • 6.1.5. 启用 gpu-aware (可选)
        • 6.1.5.1. 检查 gpu-aware 是否需要和三方调度器集成
        • 6.1.5.2. 启用gpu-aware组件
        • 6.1.5.3. 停用gpu-aware组件
        • 6.1.5.4. gpu-aware与三方调度器集成
        • 6.1.5.5. 停止gpu-aware与三方调度器集成
        • 6.1.5.6. 修改调度策略
      • 6.1.6. 启用topoDiscovery(可选)
        • 6.1.6.1. config模式
        • 6.1.6.2. dragonfly模式
        • 6.1.6.3. switchbox模式
    • 6.2. 组件功能
      • 6.2.1. gpu-device
      • 6.2.2. gpu-label
      • 6.2.3. topo-master
      • 6.2.4. topo-worker
      • 6.2.5. gpu-aware
        • 6.2.5.1. gpu-aware节点评分方案
        • 6.2.5.2. gpu-aware权重
    • 6.3. 提交作业
      • 6.3.1. 制作容器镜像
      • 6.3.2. 准备作业yaml文件
      • 6.3.3. 提交作业
    • 6.4. 节点维护
  • 7. 附录:生态支持
    • 7.1. MetaX Docker
      • 7.1.1. 安装metax-docker
      • 7.1.2. 使用metax-docker
      • 7.1.3. 构建应用软件镜像
    • 7.2. Volcano
      • 7.2.1. 部署Volcano
        • 7.2.1.1. 解压离线安装包
        • 7.2.1.2. 推送容器镜像
        • 7.2.1.3. 安装Volcano
        • 7.2.1.4. 验证部署
        • 7.2.1.5. 卸载Volcano
      • 7.2.2. 扩展插件
        • 7.2.2.1. gpu-aware
        • 7.2.2.2. gpu-podaffinity
    • 7.3. HAMi
      • 7.3.1. 部署HAMi
      • 7.3.2. 使用sGPU
        • 7.3.2.1. sGPU任务示例
        • 7.3.2.2. 提交sGPU任务
曦云系列通用GPU云原生参考手册
  • 7. 附录:生态支持
上一页 下一页

7. 附录:生态支持

  • 7.1. MetaX Docker
    • 7.1.1. 安装metax-docker
    • 7.1.2. 使用metax-docker
    • 7.1.3. 构建应用软件镜像
  • 7.2. Volcano
    • 7.2.1. 部署Volcano
      • 7.2.1.1. 解压离线安装包
      • 7.2.1.2. 推送容器镜像
      • 7.2.1.3. 安装Volcano
      • 7.2.1.4. 验证部署
      • 7.2.1.5. 卸载Volcano
    • 7.2.2. 扩展插件
      • 7.2.2.1. gpu-aware
        • 配置插件
        • 准备作业yaml文件
        • 提交任务
      • 7.2.2.2. gpu-podaffinity
        • 调度参数
        • 配置插件
        • 准备作业yaml文件
        • 提交任务
  • 7.3. HAMi
    • 7.3.1. 部署HAMi
    • 7.3.2. 使用sGPU
      • 7.3.2.1. sGPU任务示例
      • 7.3.2.2. 提交sGPU任务
上一页 下一页

© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。