MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in

Yuan_Tu

  • 论坛团队
  • Team
  • Joined 2025年6月24日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

Yuan_Tu has posted 19 messages.

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛转贴(用户youlianyun)获取GPU状态的方式问题 公共 2025年6月25日 11:58

    SMI使用手册里面有,去沐曦开发者的文档里面可以找到最新版本
    developer.metax-tech.com/api/client/document/preview/334/index.html

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户maxma@metax)GPU 实现 多种精度 精度计算的方法 解决方案及应用 2025年6月25日 10:25

    发表于 2025-4-18 09:39:22 | 只看楼主 | 阅读模式打印 上一主题 下一主题
    GPU 实现 多种精度 精度计算的方法
    一、硬件架构支持

    CUDA Core 核心驱动‌
    多种精度 多种精度计算主要由 ‌CUDA Core‌ 实现,其通过并行处理架构支持高精度浮点运算,适用于科学模拟、气候建模等需高精度的场景‌。

    计算单元设计‌:每个 CUDA Core 支持 多种精度 的乘加运算(FMA),通过增加 SM(流式多处理器)中的核心数量提升吞吐量‌。
    性能指标‌:例如 H100 GPU 的 多种精度 理论性能为 67 TFLOPS,而阉割版 H20 仅 44 TFLOPS,核心数量直接影响算力‌。

    显存与带宽优化‌

    高带宽显存(HBM)‌:如 H200 显存带宽达 4.0 TB/s,确保 多种精度 计算时数据高速传输‌。
    NVLink 互联‌:多 GPU 并行时通过 NVLink(如 H100 的 900 GB/s)减少通信延迟,提升大规模 多种精度 任务的扩展性‌。
    二、软件与指令优化

    混合精度加速策略‌

    动态精度切换‌:在保证精度的前提下,通过混合精度(如 多种精度 与 FP32 结合)减少计算量,例如部分科学计算任务仅关键步骤使用 多种精度‌。
    CUDA 数学库‌:调用 cuBLAS、cuSOLVER 等库优化 多种精度 矩阵运算,利用算法级并行减少冗余计算‌。

    指令集与调度优化‌

    FMA 指令融合‌:单个指令完成乘法和加法操作,提升 多种精度 计算效率(如 多种精度 FMA 指令吞吐量达 1/2 峰值)‌。
    任务分块与流水线‌:将大规模 多种精度 计算拆分为小块,通过 GPU 流水线并行处理,减少显存占用和延迟‌。
    三、应用场景与资源配置
    场景‌ ‌资源配置要点‌ ‌案例‌
    科学计算‌ 高 CUDA Core 占比 + 高显存带宽 H100 用于气候建模,多种精度 算力 67 TFLOPS‌
    工程仿真‌ 多 GPU NVLink 互联 + 混合精度调度 Ansys 仿真软件优化 多种精度 并行负载‌
    金融建模‌ 低延迟显存 + 高指令吞吐量 蒙特卡洛模拟通过 多种精度 确保数值稳定性‌
    四、限制与权衡
    算力与功耗平衡‌
    多种精度 计算功耗显著高于 FP32/FP16,需通过动态频率调节(如 NVIDIA 的 PowerBoost)优化能效比‌。
    Tensor Core 不参与 多种精度‌
    Tensor Core 专注低精度加速(如 FP16/INT8),多种精度 计算依赖传统 CUDA Core,需针对性分配计算资源‌。
    总结

    GPU 实现 多种精度 计算的核心方法包括:‌CUDA Core 架构优化‌、‌高带宽显存与 NVLink 支持‌、‌混合精度与指令级优化‌。实际应用中需根据任务需求平衡精度、算力及功耗,例如科学计算优先选择 H100/A100 等 CUDA Core 密集型 GPU‌。

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:20

    本帖最后由 inkstone 于 2025-4-6 11:09 编辑

    支持 CUDA语言持续开发和自动迁移到沐曦GPU,新增 MXMACA 原生语言开发支持:
    gitee.com/Inkstoneydz/llm.c/tree/master/dev/maca
    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:20

    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:20

    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:19

    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:18

    楼主| inkstone 注册会员 发表于 2025-4-6 10:45:11 | 只看该作者
    在 METAX GPU 算力切分后的某虚拟机上运行截图

    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:17

    本帖最后由 inkstone 于 2025-4-6 10:46 编辑

    具体操作不同点(NVIDIA GPU vs METAX GPU)
    gitee.com/Inkstoneydz/llm.c#build

    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户inkstone)适配 Karpathy 的 llm.c 项目到沐曦(METAX)GPU 平台 编程 2025年6月25日 10:16

    原帖入口:
    sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=144&extra=page%3D1&_dsign=f95fede1

    本帖最后由 inkstone 于 2025-4-6 15:59 编辑

    昨晚尝试将 Karpathy 的轻量级大模型项目 llm.c 适配到沐曦GPU平台。整个适配过程异常顺利,轻松实现了 CUDA 代码的跨平台运行。
    ✅ 通过cu-bridge工具链实现CUDA到MXMACA的自动转换
    ✅ 全程仅修改2处,保持原项目架构不变
    - 修改 mfu.h:宏定义禁用 USE_NVML 并注释掉 #include <nvml.h>。
    - 修改 Makefile:删除 -t=0。
    ✅ 完整保留所有训练/推理功能

    适配后的完整项目已发布至码云:🔗 gitee.com/Inkstoneydz/llm.c

    特别感谢开源项目 cu-bridge 的底层支持,已将上述 2 处修改私信反馈给cu-bridge发布者p4ul,期待未来版本能够实现零修改适配!

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛推荐贴(用户fsword73)沐曦MXMACA平台上pytorch构造CUDA算子库扩展 编程 2025年6月25日 10:14

    原帖入口:
    sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=150&extra=page%3D1&_dsign=d44c996f

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛转贴(用户typhoonalauda)是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程 专区-DeepSeek 2025年6月25日 10:03

    DataTree 新手上路 发表于 2025-4-11 14:15:22 | 只看该作者
    developer.metax-tech.com/doc/42
    这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的,在框架层面上和cuda上使用体验也是一致的,并行策略上可以尝试tp4pp8

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛转贴(用户typhoonalauda)是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程 专区-DeepSeek 2025年6月25日 10:01

    zhangjinnan 版主 发表于 2025-4-11 11:10:35 | 只看该作者
    本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑

    部署可参考:developer.metax-tech.com/doc/278

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛转贴(用户typhoonalauda)是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程 专区-DeepSeek 2025年6月25日 10:00

    您好,是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程?

    只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法(使用DeepSeek-Factory),如果要使用 TP + PP 的并行方式(类似 megatron )在 4 x 8卡C500 环境微调较大的模型,比如 72B,应该如何执行?比如指定 TP=8, PP=4。

    或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子?

  • See post chevron_right
    Yuan_Tu
    Team
    沐曦官方提供的deepseek相关的技术分享下载地址 专区-DeepSeek 2025年6月25日 09:56

    developer.metax-tech.com/doc/index#DeepSeek%E4%B8%93%E5%8C%BA
    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛转贴(用户youlianyun)获取GPU状态的方式问题 公共 2025年6月24日 22:33

    原帖地址:sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=179&extra=page%3D1
    截图如下:
    image.png

  • See post chevron_right
    Yuan_Tu
    Team
    开发者登录指南(非域账号登录流程) 公共 2025年6月24日 22:09

    原账号可以继续使用,无需重新注册,首次登录需要重置密码

  • See post chevron_right
    Yuan_Tu
    Team
    沐曦账号登录指南(域账号登录流程) 公共 2025年6月24日 21:54

    仅适用于沐曦员工

  • See post chevron_right
    Yuan_Tu
    Team
    旧版论坛访问入口 公共 2025年6月24日 18:28

    所有历史讨论都可以浏览,无需登录

  • 沐曦开发者论坛
powered by misago