您好,是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程?
只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法(使用DeepSeek-Factory),如果要使用 TP + PP 的并行方式(类似 megatron )在 4 x 8卡C500 环境微调较大的模型,比如 72B,应该如何执行?比如指定 TP=8, PP=4。
或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子?
您好,是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程?
只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法(使用DeepSeek-Factory),如果要使用 TP + PP 的并行方式(类似 megatron )在 4 x 8卡C500 环境微调较大的模型,比如 72B,应该如何执行?比如指定 TP=8, PP=4。
或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子?
zhangjinnan 版主 发表于 2025-4-11 11:10:35 | 只看该作者
本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑
DataTree 新手上路 发表于 2025-4-11 14:15:22 | 只看该作者
developer.metax-tech.com/doc/42
这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的,在框架层面上和cuda上使用体验也是一致的,并行策略上可以尝试tp4pp8