MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in
  • chevron_right Threads
  • label 专区-DeepSeek

旧版论坛转贴(用户typhoonalauda)是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程

Yuan_Tu
2025年6月25日
chat_bubble_outline 2
  • link
    Yuan_Tu
    Team 19 posts
    2025年6月25日 10:00 2025年6月25日 10:00
    link

    您好,是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程?

    只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法(使用DeepSeek-Factory),如果要使用 TP + PP 的并行方式(类似 megatron )在 4 x 8卡C500 环境微调较大的模型,比如 72B,应该如何执行?比如指定 TP=8, PP=4。

    或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子?

  • link
    Yuan_Tu
    Team 19 posts
    2025年6月25日 10:01 2025年6月25日 10:01
    link

    zhangjinnan 版主 发表于 2025-4-11 11:10:35 | 只看该作者
    本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑

    部署可参考:developer.metax-tech.com/doc/278

  • link
    Yuan_Tu
    Team 19 posts
    2025年6月25日 10:03 2025年6月25日 10:03
    link

    DataTree 新手上路 发表于 2025-4-11 14:15:22 | 只看该作者
    developer.metax-tech.com/doc/42
    这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的,在框架层面上和cuda上使用体验也是一致的,并行策略上可以尝试tp4pp8

arrow_upward Go to top
  • 沐曦开发者论坛
powered by misago