Posts | Yuan_Tu | 沐曦开发者论坛

See post chevron_right

Yuan_Tu
Team

软件版本发布已经迁移至“沐曦开发者社区-博客” 公共 2025年9月10日 19:18

developer.metax-tech.com/developer/blog
See post chevron_right

Yuan_Tu
Team

教学相长1 开源与大模型应用（一期） 2025年7月10日 09:20

AI的提示语都没有删
See post chevron_right

Yuan_Tu
Team

mctlass 库 builtin函数介绍公共 2025年6月30日 14:52

性能优化的专业性指导请联系沐曦商务或对口的沐曦FAE
See post chevron_right

Yuan_Tu
Team

旧版论坛转贴（用户youlianyun）获取GPU状态的方式问题公共 2025年6月25日 11:58

SMI使用手册里面有，去沐曦开发者的文档里面可以找到最新版本
developer.metax-tech.com/api/client/document/preview/334/index.html
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户maxma@metax）GPU 实现多种精度精度计算的方法解决方案及应用 2025年6月25日 10:25

发表于 2025-4-18 09:39:22 | 只看楼主 | 阅读模式打印上一主题下一主题
GPU 实现多种精度精度计算的方法
一、硬件架构支持

CUDA Core 核心驱动‌
多种精度多种精度计算主要由 ‌CUDA Core‌ 实现，其通过并行处理架构支持高精度浮点运算，适用于科学模拟、气候建模等需高精度的场景‌。

计算单元设计‌：每个 CUDA Core 支持多种精度的乘加运算（FMA），通过增加 SM（流式多处理器）中的核心数量提升吞吐量‌。
性能指标‌：例如 H100 GPU 的多种精度理论性能为 67 TFLOPS，而阉割版 H20 仅 44 TFLOPS，核心数量直接影响算力‌。

显存与带宽优化‌

高带宽显存（HBM）‌：如 H200 显存带宽达 4.0 TB/s，确保多种精度计算时数据高速传输‌。
NVLink 互联‌：多 GPU 并行时通过 NVLink（如 H100 的 900 GB/s）减少通信延迟，提升大规模多种精度任务的扩展性‌。
二、软件与指令优化

混合精度加速策略‌

动态精度切换‌：在保证精度的前提下，通过混合精度（如多种精度与 FP32 结合）减少计算量，例如部分科学计算任务仅关键步骤使用多种精度‌。
CUDA 数学库‌：调用 cuBLAS、cuSOLVER 等库优化多种精度矩阵运算，利用算法级并行减少冗余计算‌。

指令集与调度优化‌

FMA 指令融合‌：单个指令完成乘法和加法操作，提升多种精度计算效率（如多种精度 FMA 指令吞吐量达 1/2 峰值）‌。
任务分块与流水线‌：将大规模多种精度计算拆分为小块，通过 GPU 流水线并行处理，减少显存占用和延迟‌。
三、应用场景与资源配置
场景‌ ‌资源配置要点‌ ‌案例‌
科学计算‌ 高 CUDA Core 占比 + 高显存带宽 H100 用于气候建模，多种精度算力 67 TFLOPS‌
工程仿真‌ 多 GPU NVLink 互联 + 混合精度调度 Ansys 仿真软件优化多种精度并行负载‌
金融建模‌ 低延迟显存 + 高指令吞吐量蒙特卡洛模拟通过多种精度确保数值稳定性‌
四、限制与权衡
算力与功耗平衡‌
多种精度计算功耗显著高于 FP32/FP16，需通过动态频率调节（如 NVIDIA 的 PowerBoost）优化能效比‌。
Tensor Core 不参与多种精度‌
Tensor Core 专注低精度加速（如 FP16/INT8），多种精度计算依赖传统 CUDA Core，需针对性分配计算资源‌。
总结

GPU 实现多种精度计算的核心方法包括：‌CUDA Core 架构优化‌、‌高带宽显存与 NVLink 支持‌、‌混合精度与指令级优化‌。实际应用中需根据任务需求平衡精度、算力及功耗，例如科学计算优先选择 H100/A100 等 CUDA Core 密集型 GPU‌。
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:20

本帖最后由 inkstone 于 2025-4-6 11:09 编辑

支持 CUDA语言持续开发和自动迁移到沐曦GPU，新增 MXMACA 原生语言开发支持:
gitee.com/Inkstoneydz/llm.c/tree/master/dev/maca
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:20
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:20
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:19
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:18

楼主| inkstone 注册会员发表于 2025-4-6 10:45:11 | 只看该作者
在 METAX GPU 算力切分后的某虚拟机上运行截图
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:17

本帖最后由 inkstone 于 2025-4-6 10:46 编辑

具体操作不同点（NVIDIA GPU vs METAX GPU）
gitee.com/Inkstoneydz/llm.c#build
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户inkstone）适配 Karpathy 的 llm.c 项目到沐曦（METAX）GPU 平台编程 2025年6月25日 10:16

原帖入口：
sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=144&extra=page%3D1&_dsign=f95fede1

本帖最后由 inkstone 于 2025-4-6 15:59 编辑

昨晚尝试将 Karpathy 的轻量级大模型项目 llm.c 适配到沐曦GPU平台。整个适配过程异常顺利，轻松实现了 CUDA 代码的跨平台运行。
✅ 通过cu-bridge工具链实现CUDA到MXMACA的自动转换
✅ 全程仅修改2处，保持原项目架构不变
- 修改 mfu.h：宏定义禁用 USE_NVML 并注释掉 #include <nvml.h>。
- 修改 Makefile：删除 -t=0。
✅ 完整保留所有训练/推理功能

适配后的完整项目已发布至码云：🔗 gitee.com/Inkstoneydz/llm.c

特别感谢开源项目 cu-bridge 的底层支持，已将上述 2 处修改私信反馈给cu-bridge发布者p4ul，期待未来版本能够实现零修改适配！
See post chevron_right

Yuan_Tu
Team

旧版论坛推荐贴（用户fsword73）沐曦MXMACA平台上pytorch构造CUDA算子库扩展编程 2025年6月25日 10:14

原帖入口：
sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=150&extra=page%3D1&_dsign=d44c996f
See post chevron_right

Yuan_Tu
Team

旧版论坛转贴（用户typhoonalauda）是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程专区-DeepSeek 2025年6月25日 10:03

DataTree 新手上路发表于 2025-4-11 14:15:22 | 只看该作者
developer.metax-tech.com/doc/42
这个是megatron lm训练的例子。蒸馏模型的微调和非蒸馏模型微调方法是一致的，在框架层面上和cuda上使用体验也是一致的，并行策略上可以尝试tp4pp8
See post chevron_right

Yuan_Tu
Team

旧版论坛转贴（用户typhoonalauda）是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程专区-DeepSeek 2025年6月25日 10:01

zhangjinnan 版主发表于 2025-4-11 11:10:35 | 只看该作者
本帖最后由 zhangjinnan 于 2025-4-11 11:16 编辑

部署可参考：developer.metax-tech.com/doc/278
See post chevron_right

Yuan_Tu
Team

旧版论坛转贴（用户typhoonalauda）是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程专区-DeepSeek 2025年6月25日 10:00

您好，是否有在 C500 上微调 DeepSeek-R1 满血版的文档教程？

只看到了较小的模型 Qwen2.5-Math-1.5B 的 SFT 的方法（使用DeepSeek-Factory），如果要使用 TP + PP 的并行方式（类似 megatron ）在 4 x 8卡C500 环境微调较大的模型，比如 72B，应该如何执行？比如指定 TP=8, PP=4。

或者是否可以有适配使用 Megatron LM 训练框架的镜像和对应的例子？
See post chevron_right

Yuan_Tu
Team

沐曦官方提供的deepseek相关的技术分享下载地址专区-DeepSeek 2025年6月25日 09:56

developer.metax-tech.com/doc/index#DeepSeek%E4%B8%93%E5%8C%BA
See post chevron_right

Yuan_Tu
Team

旧版论坛转贴（用户youlianyun）获取GPU状态的方式问题公共 2025年6月24日 22:33

原帖地址：sw-developer.metax-tech.com/forum.php?mod=viewthread&tid=179&extra=page%3D1
截图如下：