曦云系列通用GPU DLRover使用手册
  • 1. 概述
    • 1.1. DLRover介绍
    • 1.2. 软件包信息
  • 2. 快速入门
    • 2.1. 安装依赖
    • 2.2. 基于k8s部署DLRover
      • 2.2.1. Helm方式安装DLRover Operator
      • 2.2.2. Helm方式升级DLRover Operator
      • 2.2.3. Helm方式卸载DLRover Operator
    • 2.3. 基于k8s提交训练任务
      • 2.3.1. 基础训练镜像中集成DLRover
      • 2.3.2. 编写训练任务的配置文件
      • 2.3.3. 下发训练任务
      • 2.3.4. 删除训练任务
  • 3. DLRover用户指南
    • 3.1. 主要组件的配置
      • 3.1.1. Helm Chart的配置
      • 3.1.2. 提交训练任务的配置
      • 3.1.3. dlrover-run的配置
      • 3.1.4. Flash Checkpoint的Python API应用
        • 3.1.4.1. DDP框架Flash Checkpoint应用示例
        • 3.1.4.2. FSDP框架Flash Checkpoint应用示例
        • 3.1.4.3. Megatron-LM框架Flash Checkpoint应用示例
    • 3.2. 基本功能点配置
      • 3.2.1. Spark数据预处理
      • 3.2.2. Flash Checkpoint异步保存
      • 3.2.3. 网络检查功能开启
      • 3.2.4. 动态资源扩缩容配置
      • 3.2.5. 故障恢复与重启次数的配置
      • 3.2.6. 基于网络拓扑感知的调度优化
      • 3.2.7. 基于switchbox网络拓扑的网络检查
      • 3.2.8. 基于xpu_timer的hang检测
      • 3.2.9. 支持gang-scheduler
  • 4. 附录
    • 4.1. 术语/缩略语
曦云系列通用GPU DLRover使用手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。