旧版论坛转贴（用户typhoonalauda）是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程 | 专区-DeepSeek | 沐曦开发者论坛

Yuan_Tu

2025年6月25日

chat_bubble_outline 2

link

Yuan_Tu
Team 25 posts

2025年6月25日 10:00 2025年6月25日 10:00
link

您好，是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程？

只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法（使用DeepSeek-Factory），如果要使用 TP + PP 的并行方式（类似 megatron ）在 4 x 8卡C500 环境微调较大的模型，比如 72B，应该如何执行？比如指定 TP=8, PP=4。

或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子？
link

Yuan_Tu
Team 25 posts

2025年6月25日 10:01 2025年6月25日 10:01
link

zhangjinnan 版主发表于 2025-4-11 11:10:35 | 只看该作者
本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑

部署可参考：developer.metax-tech.com/doc/278
link

Yuan_Tu
Team 25 posts

2025年6月25日 10:03 2025年6月25日 10:03
link

DataTree 新手上路发表于 2025-4-11 14:15:22 | 只看该作者
developer.metax-tech.com/doc/42
这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的，在框架层面上和cuda上使用体验也是一致的，并行策略上可以尝试tp4pp8