曦云系列通用GPU DLRover使用手册
1. 概述
1.1. DLRover介绍
1.2. 软件包信息
2. 快速入门
2.1. 安装依赖
2.2. 基于k8s部署DLRover
2.2.1. Helm方式安装DLRover Operator
2.2.2. Helm方式升级DLRover Operator
2.2.3. Helm方式卸载DLRover Operator
2.3. 基于k8s提交训练任务
2.3.1. 基础训练镜像中集成DLRover
2.3.2. 编写训练任务的配置文件
2.3.3. 下发训练任务
2.3.4. 删除训练任务
3. DLRover用户指南
3.1. 主要组件的配置
3.1.1. Helm Chart的配置
3.1.2. 提交训练任务的配置
3.1.3. dlrover-run的配置
3.1.4. Flash Checkpoint的Python API应用
3.1.4.1. DDP框架Flash Checkpoint应用示例
3.1.4.2. FSDP框架Flash Checkpoint应用示例
3.1.4.3. Megatron-LM框架Flash Checkpoint应用示例
3.2. 基本功能点配置
3.2.1. Spark数据预处理
3.2.2. Flash Checkpoint异步保存
3.2.3. 网络检查功能开启
3.2.4. 动态资源扩缩容配置
3.2.5. 故障恢复与重启次数的配置
3.2.6. 基于网络拓扑感知的调度优化
3.2.7. 基于switchbox网络拓扑的网络检查
3.2.8. 基于xpu_timer的hang检测
3.2.9. 支持gang-scheduler
4. 附录
4.1. 术语/缩略语
曦云系列通用GPU DLRover使用手册
目录
下一页
目录
1. 概述
1.1. DLRover介绍
1.2. 软件包信息
2. 快速入门
2.1. 安装依赖
2.2. 基于k8s部署DLRover
2.2.1. Helm方式安装DLRover Operator
2.2.2. Helm方式升级DLRover Operator
2.2.3. Helm方式卸载DLRover Operator
2.3. 基于k8s提交训练任务
2.3.1. 基础训练镜像中集成DLRover
2.3.2. 编写训练任务的配置文件
2.3.3. 下发训练任务
2.3.4. 删除训练任务
3. DLRover用户指南
3.1. 主要组件的配置
3.1.1. Helm Chart的配置
3.1.2. 提交训练任务的配置
3.1.3. dlrover-run的配置
3.1.4. Flash Checkpoint的Python API应用
3.1.4.1. DDP框架Flash Checkpoint应用示例
3.1.4.2. FSDP框架Flash Checkpoint应用示例
3.1.4.3. Megatron-LM框架Flash Checkpoint应用示例
3.2. 基本功能点配置
3.2.1. Spark数据预处理
3.2.2. Flash Checkpoint异步保存
3.2.3. 网络检查功能开启
3.2.4. 动态资源扩缩容配置
3.2.5. 故障恢复与重启次数的配置
3.2.6. 基于网络拓扑感知的调度优化
3.2.7. 基于switchbox网络拓扑的网络检查
3.2.8. 基于xpu_timer的hang检测
3.2.9. 支持gang-scheduler
4. 附录
4.1. 术语/缩略语